Para mí, hay dos razones principales por las que el análisis y las estadísticas parecen haber explotado en popularidad en los últimos tiempos.
En primer lugar, uno de los mayores cambios que se han producido incluso hace 15 años es el volumen y la naturaleza de los datos que se crean. La cantidad de personas que usan Internet, ya sea en una computadora de escritorio / portátil, un teléfono inteligente o un dispositivo conectado a Internet, como una nevera, un televisor o una consola de juegos, ha explotado. Y todas esas interacciones con Internet, buscar, dar me gusta a algo en Facebook, pedir algo usando su refrigerador, están generando datos sobre esa acción. Este gran volumen de datos nuevos, y a menudo personales, crea enormes oportunidades para el análisis y el modelado predictivo que antes no existían.
Anteriormente, los grandes conjuntos de datos eran casi en su totalidad el dominio de grandes empresas que tenían que mantener un gran número de registros, como bancos o minoristas, o de investigadores que realizaban minuciosamente la recopilación manual de datos. Esta explosión de datos en línea también ha llevado a una democratización de los datos, lo que permite a empresas e individuos muy pequeños acceder y / o recopilar rápidamente grandes volúmenes de datos.
- ¿Podrán los humanos salir de nuestra galaxia en los próximos 100 años?
- ¿Alguna vez te sorprendió la tecnología y su efecto en las personas?
- ¿Qué tipo de tecnologías IOT (Internet de las cosas) se pueden aplicar a Indian Railways (o cualquier otro)?
- ¿Qué es lo que cambiarías de Reddit?
- ¿Israel está más avanzado tecnológicamente que Japón y Alemania?
El segundo cambio importante es, como sugiere en su pregunta, debido a las nuevas tecnologías. Muchos de los cambios no han sido revolucionarios, sino más evolutivos. Caída de los costos de hardware, procesadores multinúcleo más potentes, acceso a más RAM, capacidad de almacenar volúmenes de datos mucho mayores a un costo menor. Sin embargo, hay algunas tecnologías clave que vale la pena mencionar:
- Computación en la nube: esto ha permitido a las empresas más pequeñas acceder a servidores de gama alta de forma económica y rápida según las necesidades. Esto les da más opciones no solo para almacenar sus datos, sino para utilizar una informática más poderosa para procesar, construir modelos y extraer valor de esos datos.
- Sistemas distribuidos de almacenamiento y procesamiento: el más famoso de estos es Hadoop, pero es el concepto el que ha sido revolucionario. Anteriormente, las bases de datos tradicionales solían depender de servidores de gama alta muy caros para almacenar y proporcionar acceso a los datos de manera oportuna. Lo que hicieron los sistemas distribuidos como Hadoop fue cambiar esto para que el hardware básico (hardware que es barato y fácil de comprar en grandes cantidades) pueda utilizarse en su lugar. Nuevamente, esto hizo que la recopilación y el análisis de conjuntos de datos extremadamente grandes (big data) no solo fueran posibles, sino que en la mayoría de los casos fueran significativamente más baratos que antes.
- Mejores bibliotecas de software: los algoritmos de aprendizaje automático solían ser casi exclusivamente del dominio de académicos e investigadores, con cada investigador escribiendo su propio algoritmo para manejar el problema específico en el que estaban trabajando. Ahora, tenemos bibliotecas de código abierto de alta calidad y bien mantenidas, como el paquete caret para R y scikit-learn para Python que permiten a cualquier persona con una computadora portátil implementar una gran variedad de algoritmos de aprendizaje automático potentes, esencialmente listos para usar.