Cuando de analizar datos se trata, el principio de Pareto puede convertirse en un gran aliado, pero:
¿Qué dice el principio de Pareto?
Según la Wikipedia, el principio de Pareto "describe el fenómeno estadístico por el que en cualquier población que contribuye a un efecto común, es una proporción pequeña la que contribuye a la mayor parte del efecto".
¿Cómo puedo aplicar este principio a mis análisis de datos?
Dentro del ciclo de vida del análisis de datos, hay una parte que va al principio y es la que seleccionamos, preparamos y limpiamos los datos. Es aquí cuando hemos de centrarnos en el problema que queremos resolver y los datos que tenemos disponibles. Seleccionar bien nuestras fuentes, que sean completas y fiables, que no contengan datos redundantes o que no aporten valor a nuestro análisis (reduciendo la dimensionalidad de los datos) es básico para dar una respuesta correcta.
Pero aquí también es importante decir que no es solo por cantidad, sino por calidad. Si a nuestro modelo de ciencia de datos le suministramos datos de baja calidad o erróneos, el resultado será de baja calidad o erróneo.
Reducir la cantidad de datos también hará nuestro modelo más comprensible y le dará un mejor rendimiento a la hora de procesar los datos, algo que para un sistema en tiempo real es totalmente recomendable.
¿Qué es el síndrome de Diógenes digital?
En contraposición a la idea anterior, nos encontramos con lo que denomino el síndrome Diógenes digital, que no es más que la acumulación de datos pensando en que en el futuro puedan tener algún valor. La bajada del precio
Como hemos visto antes, la cantidad por si misma no nos asegura la calidad, siendo esta última indispensable para un análisis que nos permita obtener valor de nuestros datos.