Déjame intentar darte un ejemplo. ¿Puedes encontrar un patrón aquí?
1 2 3 4 5 6 7 8 9
Asumiré que ve que cada número es igual al anterior más uno o que son enteros ordenados hasta 9. Ambos patrones son correctos. Hagámoslo un poco más difícil.
- ¿Cuál es el mejor lenguaje de programación para la ciencia de datos?
- ¿Cómo ha contribuido Microsoft al desarrollo de R?
- Durante el análisis de datos con R, ¿qué debería importarnos primero: los valores atípicos o los valores faltantes?
- Estoy planeando hacer un estudio independiente usando Machine Learning y Big Data. ¿Hay algún tema interesante como Deep learning para PNL?
- 17 personas quieren tomar fotos de cada par de personas (136 pares) mientras viajan en bote. El bote solo tiene capacidad para 8 personas a la vez. ¿Cuál es el número más pequeño de viajes en bote necesarios para obtener los 136 pares de personas en el bote al menos una vez? (ver detalles de la pregunta)
0.281 0.802 0.827 0.588 0.860 0.429 0.126 0.704 0.661
Apuesto a que no puedes ver un patrón allí … puedes decir que son aleatorios. Y eso es correcto. Puede sospechar que están entre 0 y 1. Y también es correcto. Pero eso solo no es realmente un patrón, ¿verdad?
El patrón “correcto” es que son de una distribución uniforme. De hecho, el primer ejemplo del 1 al 9 también es, pero tampoco lo viste, ¿verdad?
Permítanme comenzar diciendo esto: nosotros, los humanos, somos bastante malos para encontrar patrones en los datos. Somos bastante buenos cuando visualizamos esos patrones, pero luchamos pronto, ya que tenemos un poco más de 6 o 7 números frente a nosotros. Big data, dadas las características de la misma (velocidad, volumen y variedad) hace que todos los patrones que contiene sean patrones ocultos. Es mi opinión, pero diría que es físicamente imposible para un ser humano “ver” patrones en Big Data … ¡así que todos están ocultos!
Sin embargo, hay patrones que son más relevantes que otros. Por ejemplo, si bien puede ser bastante fácil encontrar el tipo de distribución de una variable en Big Data, en su mayoría es intrascendente en lo que respecta a la acción final que tomará. Por otro lado, si encuentra patrones de compra, relaciones entre observaciones y otros, entonces tendrá algo en qué actuar.
Dicho esto, lo que la mayoría de la gente llama patrones ocultos en los datos en general y los grandes datos en particular, son todo tipo de patrones que informan las decisiones, pero que dada su naturaleza no son obvias con un simple análisis estadístico. A menudo existen para crear un modelo de predicción o para encontrar asociaciones entre observaciones, pero apuesto a que casi todo el campo de la estadística tiene posibilidades dependiendo de la pregunta que queramos responder.
Espero que esto ayude.