¿Cómo se hacen análisis de datos, estadísticas y aprendizaje automático en big data?

Primero, debe comprender qué es Big Data … aquí está mi definición de Big Data:

“Big Data es la aplicación de nuevas técnicas y plataformas para procesar, analizar y visualizar grandes volúmenes de datos que están más allá de la capacidad de los métodos tradicionales para procesar en tiempo casi real. Algunas de estas técnicas aprovechan la computación en la nube y crean lo que se llama” nube de datos “. El objetivo de big data es extraer tendencias, patrones y conocimientos de los datos para mejorar la toma de decisiones organizacionales. Un ejemplo de big data es el procesamiento de datos de flujo de clics en un sitio web, utilizando un clúster Hadoop, para entender los patrones de compra del cliente “.

Ahora, para responder algunas de sus preguntas específicas:

1. No, los datos grandes normalmente no se almacenan en una base de datos relacional porque el volumen de datos es mucho mayor que el que se puede almacenar en una sola base de datos relacional. Si puede almacenar todos los datos que desea procesar en una sola base de datos relacional, no tiene grandes datos.

2. En un clúster de Hadoop, haces aprendizaje automático con Mahout.

3. El ecosistema de Hadoop es, con mucho, la plataforma dominante en el procesamiento de Big Data. Ver: ¡Bienvenido a Apache ™ Hadoop®!

4. Hay toneladas de libros y tutoriales en línea sobre Hadoop.

¡Los mejores deseos!

Big DataBig Data AnalysisDataData AnalysisData MiningData ScienceHow-to QuestionMachine LearningMapReduce

Cómo asegurarse de no analizar algo que termina sin sentido

¿Por qué necesitamos tasas de aprendizaje adaptativo para Deep Learning?

¿Por qué usamos k-means clustering? ¿Qué usos tiene en un escenario del mundo real?

¿Es esencial un Msc / PHD en Machine Learning para comenzar una carrera o hacer investigación? ¿Algún consejo?

¿Qué progreso se ha logrado en el aprendizaje profundo en 2014?

En una máquina de vectores de soporte, el número de vectores de soporte puede ser mucho menor que el conjunto de entrenamiento. ¿Cómo puede ser útil esta característica?

Puede ayudar a particionar los datos por diferentes atributos para ver patrones. Las capacidades de facetado de Solr me parecen muy útiles para esto. Elasticsearch es una opción más popular entre aquellos (como yo) que usan un índice de búsqueda. Creo que podría usar RDBMS si sus datos están más normalizados / estructurados. Algunas personas prefieren bases de datos NoSQL como MongoDB. Hay otro DB llamado Druid que parece optimizado para grandes cantidades de datos, pero no sé mucho al respecto.

En términos de algoritmos de ML, encontrará que solo se puede usar un subconjunto de algoritmos. Sin embargo, debido a que se trata de grandes cantidades de datos, a menudo puede salirse con la suya con algoritmos más simples.

George Lees Jr.

More Interesting

¿Qué matemáticas se necesitan para este curso de aprendizaje automático?

¿Cuál es la diferencia entre almacenar datos en HDF5 frente al formato TFRecord de TensorFlow?

¿Qué parte de la investigación de aprendizaje profundo es empírica versus teórica?

¿Qué tan buenos antecedentes en ML ofrece el curso Coursera Machine Learning a alguien?

Cómo detectar regiones de texto solo de documentos escaneados

¿Cuáles son las probabilidades de ingresar a un programa de posgrado de aprendizaje automático en una escuela superior si mi experiencia en investigación es en bioinformática y algo de experiencia en investigación en PNL?

¿Qué es el remuestreo en el aprendizaje automático?

¿Cuál es la forma correcta y deseable de hacer un asistente personal / bot de chat usando AI, ML y NLP?

¿Cuáles son algunas aplicaciones interesantes de salud personalizada?

¿Qué papel juega la función logística en el algoritmo de regresión logística en el aprendizaje automático?