¿Puedo comenzar a aprender herramientas de big data (Hadoop y MapReduce) antes de aprender Machine Learning?

No es necesario, no es necesario aprender herramientas de Big Data como Hadoop y MR. Básicamente no necesita esto.

Puede comenzar a aprender directamente con Matemáticas y conocimientos de programación de Python y R Programming

Te puedo sugerir los mejores cursos en línea de Machine Learning

  • Machine Learning AZ ™: Python práctico y R en ciencia de datos
  • Bootcamp de ciencia de datos y aprendizaje automático con R
  • Aprendizaje automático para ciencia de datos

Elige el primer curso ..

de este curso puedes aprender sobre:

Este curso es divertido y emocionante, pero al mismo tiempo nos sumergimos profundamente en Machine Learning. Está estructurado de la siguiente manera:

  • Parte 1: preprocesamiento de datos
  • Parte 2: Regresión: Regresión lineal simple, Regresión lineal múltiple, Regresión polinómica, SVR, Regresión de árbol de decisión, Regresión forestal aleatoria
  • Parte 3 – Clasificación: Regresión logística, K-NN, SVM, Kernel SVM, Naive Bayes, Clasificación del árbol de decisión, Clasificación aleatoria del bosque
  • Parte 4 – Agrupación: K-medias, agrupación jerárquica
  • Parte 5 – Aprendizaje de reglas de asociación: Apriori, Eclat
  • Parte 6 – Aprendizaje de refuerzo: límite de confianza superior, muestreo de Thompson
  • Parte 7 – Procesamiento del lenguaje natural: modelo de bolsa de palabras y algoritmos para PNL
  • Parte 8 – Aprendizaje profundo: redes neuronales artificiales, redes neuronales convolucionales
  • Parte 9 – Reducción de dimensionalidad: PCA, LDA, Kernel PCA
  • Parte 10 – Selección y refuerzo del modelo: validación cruzada k-fold, ajuste de parámetros, búsqueda de cuadrícula, XGBoost

y también….

  • Master Machine Learning en Python & R
  • Tener una gran intuición de muchos modelos de Machine Learning
  • Hacer predicciones precisas
  • Haz un análisis poderoso
  • Hacer modelos robustos de aprendizaje automático
  • Crea un fuerte valor agregado para tu negocio
  • Usar Machine Learning para fines personales
  • Manejar temas específicos como el aprendizaje por refuerzo, PNL y aprendizaje profundo
  • Manejar técnicas avanzadas como la reducción de dimensionalidad
  • Sepa qué modelo de Machine Learning elegir para cada tipo de problema
  • Construya un ejército de poderosos modelos de Machine Learning y sepa cómo combinarlos para resolver cualquier problema.

Cursos adicionales en línea:

  • principiante a avanzado: aprendizaje automático y redes neuronales
  • Python for Data Science y Machine Learning Bootcamp

TODO LO MEJOR…

No son disciplinas estrictamente relacionadas. Hadoop es una plataforma operativa para almacenamiento y procesamiento distribuido. El Aprendizaje automático incorpora una colección de técnicas para analizar datos, según sugiere el término, haciendo que la máquina se entrene para hacer el trabajo.

(Lo digo descaradamente porque yo, Michael Ernest, por mi propia voluntad y sin ningún indicio de acuerdo con mis colegas de Cloudera o de Cloudera, no pienso mucho en el término “aprendizaje automático”. Es un desafío e interesante trabajo, pero el término en sí es una descripción grandiosa y descomunal de lo que es).

En el corazón de MapReduce, o Spark, u otras tecnologías de programación que usan Hadoop, se encuentra un paradigma operativo muy adecuado para un sistema distribuido de recursos informáticos. Dejando de lado una larga lista de diferencias significativas por el momento, lo que MapReduce hace al apoyar las fases de mapeo y reducir los datos no es tan diferente de las fases de transformación y acciones de Spark. Está pensando en mover sus datos a través de actividades de procesamiento en una (tubería, orquestación, gráfico acíclico dirigido, etc.) para obtener algún resultado. Puede ser algo simple, como el número de palabras contadas en algún documento. Puede ser algo mucho más profundo, como predecir la probabilidad de que alguien tenga cáncer, en función de los aspectos visibles de un tumor que tiene.

Hadoop le ofrece la posibilidad de procesar estos hallazgos a gran escala. Machine Learning le brinda herramientas y técnicas para soportar una inferencia o decisión compleja basada en cierta cantidad de datos disponibles.

No tengo consejos útiles sobre cuál es mejor comenzar. Esa respuesta proviene de usted: lo que le interesa, la aptitud que tiene para cualquiera de las disciplinas y las oportunidades que tiene para aplicarlas. Mucha gente dirá que ganarás más dinero como científico de datos: tal vez. Hay mucho más trabajo que paga bien que un título de trabajo que está en tendencia.

¡Por supuesto! Puedes aprender ambos al mismo tiempo. Sin embargo, el ecosistema de Hadoop o la tabla de ecosistemas de Hadoop es muy grande. Pero puedes aprenderlo.

Hadoop, como ya sabrá, se usa para el almacenamiento distribuido y el procesamiento de conjuntos de datos de big data utilizando el modelo de programación MapReduce y definitivamente puede aprender a hacer aprendizaje automático junto con él. No necesariamente necesita saber todo, solo concentrarse en un área (eso ‘para que descubra).

Además, debe tener en cuenta que si aprende Hadoop, es mejor aprender aprendizaje automático escalable y minería de datos a través de Apache Mahout y creo que puede integrarlo o usarlo en Scala, Spark (que es compatible con Python, R e incluso Java).

Mejor.

Veamos primero sus definiciones,

Hadoop Map / Reduce es un marco de software para el procesamiento distribuido de grandes conjuntos de datos en grupos de cómputo de hardware básico. [1]

El aprendizaje automático (ML) es un campo de la informática que brinda a las computadoras la capacidad de aprender sin ser programado explícitamente [2]

Hadoop trata más sobre el procesamiento de grandes conjuntos de datos para ponerlos en una tubería. Los algoritmos de ML pueden usar esa tubería para construir modelos predictivos. Ambos hacen tareas muy diferentes. Por lo tanto, aprenderlos no se cruza. Uno puede aprender ambos de forma secuencial (en cualquier orden), concurrente o independientemente.

Notas al pie

[1] Hadoop MapReduce

[2] Aprendizaje automático – Wikipedia

Seguro. Las dos áreas son completamente independientes entre sí. Las arquitecturas de tipo map-reduce se utilizan para muchas cosas que no son de aprendizaje automático, y el aprendizaje automático se puede aplicar a conjuntos de datos mucho más pequeños de lo que necesitaría un clúster de colmena. Eventualmente, es posible que desee aprender sobre cómo aplicar ML a conjuntos de “big data”, lo que presenta desafíos adicionales, pero ciertamente no es allí donde comenzaría.

Estos no tienen mucho que ver con el aprendizaje automático. Esas son más cosas de software / programación. El aprendizaje automático es una rama de las estadísticas, y su conexión con la programación es que las computadoras se utilizan para implementar los algoritmos en la práctica.

Si. Dado que estos idiomas son de naturaleza discreta.

Sí, porque son independientes entre sí.

Sí, puedes, pero no tienes que hacerlo. El aprendizaje automático no requiere necesariamente habilidades de big data.

Puede ser útil aprender ambos, eso es lo que hice.

Si.

Los dos no están estrechamente relacionados.

Aparte del aprendizaje automático utilizando el primero.

Por lo tanto, incluso podría ser alentado, para hacerlo.