¿Qué son los patrones ocultos en big data?

Déjame intentar darte un ejemplo. ¿Puedes encontrar un patrón aquí?

1 2 3 4 5 6 7 8 9

Asumiré que ve que cada número es igual al anterior más uno o que son enteros ordenados hasta 9. Ambos patrones son correctos. Hagámoslo un poco más difícil.

0.281 0.802 0.827 0.588 0.860 0.429 0.126 0.704 0.661

Apuesto a que no puedes ver un patrón allí … puedes decir que son aleatorios. Y eso es correcto. Puede sospechar que están entre 0 y 1. Y también es correcto. Pero eso solo no es realmente un patrón, ¿verdad?

El patrón “correcto” es que son de una distribución uniforme. De hecho, el primer ejemplo del 1 al 9 también es, pero tampoco lo viste, ¿verdad?

Permítanme comenzar diciendo esto: nosotros, los humanos, somos bastante malos para encontrar patrones en los datos. Somos bastante buenos cuando visualizamos esos patrones, pero luchamos pronto, ya que tenemos un poco más de 6 o 7 números frente a nosotros. Big data, dadas las características de la misma (velocidad, volumen y variedad) hace que todos los patrones que contiene sean patrones ocultos. Es mi opinión, pero diría que es físicamente imposible para un ser humano “ver” patrones en Big Data … ¡así que todos están ocultos!

Sin embargo, hay patrones que son más relevantes que otros. Por ejemplo, si bien puede ser bastante fácil encontrar el tipo de distribución de una variable en Big Data, en su mayoría es intrascendente en lo que respecta a la acción final que tomará. Por otro lado, si encuentra patrones de compra, relaciones entre observaciones y otros, entonces tendrá algo en qué actuar.

Dicho esto, lo que la mayoría de la gente llama patrones ocultos en los datos en general y los grandes datos en particular, son todo tipo de patrones que informan las decisiones, pero que dada su naturaleza no son obvias con un simple análisis estadístico. A menudo existen para crear un modelo de predicción o para encontrar asociaciones entre observaciones, pero apuesto a que casi todo el campo de la estadística tiene posibilidades dependiendo de la pregunta que queramos responder.

Espero que esto ayude.