El análisis y las estadísticas han existido durante mucho tiempo. ¿Por qué toda la moda ahora y qué tecnologías la han hecho diferente?

Para mí, hay dos razones principales por las que el análisis y las estadísticas parecen haber explotado en popularidad en los últimos tiempos.

En primer lugar, uno de los mayores cambios que se han producido incluso hace 15 años es el volumen y la naturaleza de los datos que se crean. La cantidad de personas que usan Internet, ya sea en una computadora de escritorio / portátil, un teléfono inteligente o un dispositivo conectado a Internet, como una nevera, un televisor o una consola de juegos, ha explotado. Y todas esas interacciones con Internet, buscar, dar me gusta a algo en Facebook, pedir algo usando su refrigerador, están generando datos sobre esa acción. Este gran volumen de datos nuevos, y a menudo personales, crea enormes oportunidades para el análisis y el modelado predictivo que antes no existían.

Anteriormente, los grandes conjuntos de datos eran casi en su totalidad el dominio de grandes empresas que tenían que mantener un gran número de registros, como bancos o minoristas, o de investigadores que realizaban minuciosamente la recopilación manual de datos. Esta explosión de datos en línea también ha llevado a una democratización de los datos, lo que permite a empresas e individuos muy pequeños acceder y / o recopilar rápidamente grandes volúmenes de datos.

El segundo cambio importante es, como sugiere en su pregunta, debido a las nuevas tecnologías. Muchos de los cambios no han sido revolucionarios, sino más evolutivos. Caída de los costos de hardware, procesadores multinúcleo más potentes, acceso a más RAM, capacidad de almacenar volúmenes de datos mucho mayores a un costo menor. Sin embargo, hay algunas tecnologías clave que vale la pena mencionar:

  1. Computación en la nube: esto ha permitido a las empresas más pequeñas acceder a servidores de gama alta de forma económica y rápida según las necesidades. Esto les da más opciones no solo para almacenar sus datos, sino para utilizar una informática más poderosa para procesar, construir modelos y extraer valor de esos datos.
  2. Sistemas distribuidos de almacenamiento y procesamiento: el más famoso de estos es Hadoop, pero es el concepto el que ha sido revolucionario. Anteriormente, las bases de datos tradicionales solían depender de servidores de gama alta muy caros para almacenar y proporcionar acceso a los datos de manera oportuna. Lo que hicieron los sistemas distribuidos como Hadoop fue cambiar esto para que el hardware básico (hardware que es barato y fácil de comprar en grandes cantidades) pueda utilizarse en su lugar. Nuevamente, esto hizo que la recopilación y el análisis de conjuntos de datos extremadamente grandes (big data) no solo fueran posibles, sino que en la mayoría de los casos fueran significativamente más baratos que antes.
  3. Mejores bibliotecas de software: los algoritmos de aprendizaje automático solían ser casi exclusivamente del dominio de académicos e investigadores, con cada investigador escribiendo su propio algoritmo para manejar el problema específico en el que estaban trabajando. Ahora, tenemos bibliotecas de código abierto de alta calidad y bien mantenidas, como el paquete caret para R y scikit-learn para Python que permiten a cualquier persona con una computadora portátil implementar una gran variedad de algoritmos de aprendizaje automático potentes, esencialmente listos para usar.

Uno puede escribir un libro sobre esto, pero destacaría tres cosas, quizás un poco cínicas:

  1. Sigue el dinero . Amazon, Google, etc., han demostrado que se pueden generar pilares de ganancias mediante el uso de datos de registros de clientes. Todos los demás están acumulando.
  2. Almacenamiento . Se ha vuelto barato MUCHO MUCHO más rápido que la potencia de procesamiento. Pronto su teléfono tendrá la Biblioteca del Congreso. Imagina lo que una corporación puede almacenar. Y apalancamiento.
  3. En línea todo . Solía ​​dejar rastros de datos detallados, pero estaban localizados, patentados, escritos y no lo seguían a través de lugares. Todo eso ha cambiado debido a los pequeños dispositivos de vigilancia, um, quiero decir, los teléfonos que llevamos con nosotros. Y Facebook, Google, Twitter y todos nuestros otros amigos electrónicos nos ayudan al mantenernos conectados en todos los dispositivos. Muy atento de ellos!

Puede preguntar “¿Qué pasa con los modelos predictivos?” Estos han recibido toda la prensa – ¡Ooooh, aprendizaje automático ! Máquinas! Eso puede aprender! – pero en realidad esta es una parte pequeña y distinta de una imagen mucho más grandiosa. Los modelos de regresión ordinarios, que han existido durante al menos un siglo, son muy potentes cuando tienen los datos correctos. Sin embargo, los modelos sofisticados han permitido el reconocimiento a nivel humano y el rendimiento predictivo en tiempo real en dispositivos económicos , y eso es una novedad histórica.