¿Cómo se hacen análisis de datos, estadísticas y aprendizaje automático en big data?

Primero, debe comprender qué es Big Data … aquí está mi definición de Big Data:

“Big Data es la aplicación de nuevas técnicas y plataformas para procesar, analizar y visualizar grandes volúmenes de datos que están más allá de la capacidad de los métodos tradicionales para procesar en tiempo casi real. Algunas de estas técnicas aprovechan la computación en la nube y crean lo que se llama” nube de datos “. El objetivo de big data es extraer tendencias, patrones y conocimientos de los datos para mejorar la toma de decisiones organizacionales. Un ejemplo de big data es el procesamiento de datos de flujo de clics en un sitio web, utilizando un clúster Hadoop, para entender los patrones de compra del cliente “.

Ahora, para responder algunas de sus preguntas específicas:

1. No, los datos grandes normalmente no se almacenan en una base de datos relacional porque el volumen de datos es mucho mayor que el que se puede almacenar en una sola base de datos relacional. Si puede almacenar todos los datos que desea procesar en una sola base de datos relacional, no tiene grandes datos.

2. En un clúster de Hadoop, haces aprendizaje automático con Mahout.

3. El ecosistema de Hadoop es, con mucho, la plataforma dominante en el procesamiento de Big Data. Ver: ¡Bienvenido a Apache ™ Hadoop®!

4. Hay toneladas de libros y tutoriales en línea sobre Hadoop.

¡Los mejores deseos!

Puede ayudar a particionar los datos por diferentes atributos para ver patrones. Las capacidades de facetado de Solr me parecen muy útiles para esto. Elasticsearch es una opción más popular entre aquellos (como yo) que usan un índice de búsqueda. Creo que podría usar RDBMS si sus datos están más normalizados / estructurados. Algunas personas prefieren bases de datos NoSQL como MongoDB. Hay otro DB llamado Druid que parece optimizado para grandes cantidades de datos, pero no sé mucho al respecto.

En términos de algoritmos de ML, encontrará que solo se puede usar un subconjunto de algoritmos. Sin embargo, debido a que se trata de grandes cantidades de datos, a menudo puede salirse con la suya con algoritmos más simples.