¿Cómo se conectan Hadoop y Machine Learning?

Dado que el marco Hadoop se utiliza para procesar grandes conjuntos de datos en diferentes grupos de servidores de productos básicos baratos, este es el lugar donde Big Data entra en escena.

Ahora, el aprendizaje automático y el big data como un proceso colectivo de 3 pasos:

  1. Recoger
  2. Analizar
  3. Predecir

El aprendizaje automático es para grandes datos como el aprendizaje humano es para las experiencias de la vida. Tenemos experiencias en la vida, las recopilamos en nuestro cerebro y luego las analizamos y finalmente las usamos para predecir el resultado de algunas situaciones desconocidas, de la misma manera cuando tiene que hacer un análisis de predicción a través de datos a una escala masiva, hacemos uso de marcos como Hadoop e intentan explorar los datos que pueden utilizarse para realizar análisis de predicción.

Básicamente, Hadoop no se utiliza para ejecutar algoritmos de aprendizaje automático, pero cuando aparecen grandes datos, Hadoop facilita el uso de los datos que se incorporarán a las herramientas de aprendizaje automático.

PARA PRINCIPIANTES:
El aprendizaje automático se trata de jugar con datos. Puede extraer un montón de información relevante de los datos en sí aplicando ML. Pero este no es siempre el caso,

A veces necesita calcular algoritmos ML en datos que su sistema no puede almacenar, y tampoco tiene suficiente memoria para llevar a cabo los cálculos que realiza el algoritmo ML.

Aquí viene Hadoop, le brinda flexibilidad para trabajar en BIG DATA. Puede aplicar algoritmos ML en big data y puede realizar cálculos mucho más altos en su clúster.

PARA MODERADO:
Pero cuando está facilitando un poco las cosas, debe haber una restricción adicional debajo.
Hadoop solo admite trabajos para ejecutar que pueden lograr paralelismo.

Por lo tanto, para algunos algos de ML que no se pueden paralelizar en la arquitectura Hadoop, no se ejecutarían directamente. Por ej. las cosas que no se pueden admitir son SVM de kernel, que utilizan una función de optimización que no sea Descenso de gradiente estocástico, o LBFGS, etc.

Resumen: por lo tanto, están conectados cuando tiene que realizar alguna predicción, clasificación o cualquier tarea de aprendizaje automático en Big Data.

Desde el primer programa, los científicos intentaron encontrar una respuesta a la pregunta “¿Pueden las máquinas hacer lo que nosotros (como entidades pensantes) podemos hacer?” (Alan Turing) A mediados del siglo XX, los programadores solo soñaban con la cantidad de datos necesarios para ejecutar algoritmos que tratarán de “pensar”.

Básicamente, el aprendizaje automático se trata de métodos de programación no explícitos; En cuanto a la falta de simplicidad, solo debemos tener en cuenta la gran cantidad de datos necesarios. Se trata de análisis estadístico.

Una vez que los desarrolladores actuales entendieron el hecho anterior, comenzaron a implementar marcos de software que procesarán conjuntos de datos tan grandes (últimamente llamados BigData). Y Apache Hadoop, lanzado por primera vez en diciembre de 2011, fue uno de los primeros marcos de procesamiento de BigData que funciona en la parte superior del clúster de cientos y miles de nodos.

El marco Hadoop incluye partes tales como:

  • Hadoop Common: conjunto de bibliotecas y utilidades, middleware entre el resto de partes del paquete Hadoop;
  • Sistema de archivos distribuidos de Hadoop (HDFS): un sistema de archivos distribuidos desarrollado para cálculos paralelos; tolerante a fallos;
  • Hadoop YARN: planificador y administrador de tareas para todo el clúster;
  • Hadoop MapReduce: implementación propia de los modelos MapReduce utilizados para el procesamiento de datos a gran escala.

En Azati obtuvimos una gran experiencia usando Hadoop implementando nuestros proyectos de Machine Learning en diversas áreas de negocio: desde bioinformática hasta aplicaciones de seguros y modelado de imágenes.

Podría estar muy equivocado aquí ya que yo también soy un novato, pero aquí va:

Hadoop se ocupa del sistema ecológico que puede almacenar y recuperar una gran cantidad de datos. Machine Learning, a un alto nivel, entrena un sistema informático basado en algunos datos de entrenamiento, para encontrar patrones en los datos y usarlos para predecir los resultados de futuros casos de uso.

Por lo tanto, el aprendizaje automático puede estar en la parte superior de un sistema ecológico Hadoop, obtener los datos de él y usarlo para entrenar los modelos de predicción o predecir algunos comportamientos. Por ejemplo, un sistema ML puede acceder a todos los registros de los datos de un préstamo bancario, almacenados en algún sistema de archivos Hadoop y crear un modelo sobre cuáles de los clientes tienen más probabilidades de incumplir un préstamo. Una vez que el modelo se construye con una precisión satisfactoria, se puede implementar para monitorear de manera continua o periódica a los nuevos clientes de préstamos para la posibilidad de incumplimiento.

Por supuesto, ML no siempre necesita estar conectado a un sistema Hadoop, también puede haber varias otras fuentes de datos (desde algo tan simple como un archivo CSV hasta datos raspados en la web de feeds de Twitter).

Además, de manera similar, los sistemas de archivos Hadoop también pueden adaptarse a otros usos, no todo tiene que estar relacionado con el aprendizaje automático.

Espero que mi comprensión sea correcta aquí.

Gracias 🙂

Hadoop: Se utiliza para procesar grandes volúmenes de datos utilizando conceptos de computación distribuida.
Aprendizaje automático: se utiliza para el modelado predictivo basado en datos históricos pasados.

Conexión: cuando el tamaño de los datos es tan grande que los algoritmos de ML están bloqueando su servidor o demorando mucho tiempo, Hadoop se usa para el manejo de datos.

Cuando piensa en el aprendizaje automático, Hadoop puede no ser el primer nombre que le viene a la mente. Como plataforma y tecnología, Hadoop al principio era solo un lugar para almacenar datos. Como plataforma y tecnología, Hadoop al principio era solo un lugar para almacenar datos.

Gran parte de nuestro trabajo en Cloudera, con respecto a Hadoop y el aprendizaje automático, implica la producción de aprendizaje automático, en lugar de inventar nuevos algoritmos. Es un poco más prosaico, pero creo que en realidad es importante.

Mucho de lo que se ve en la prensa y mucha discusión sobre ciencia de datos y aprendizaje automático es el análisis exploratorio o el análisis de investigación. Puedes hacer estas cosas en Hadoop. Cuando escuchamos acerca de personas que usan herramientas de inteligencia empresarial, e incluso aplican el aprendizaje profundo, es interesante y esas son las cosas que puede hacer en Hadoop.

Lee mas…