¿Puedo comenzar a aprender herramientas de big data (Hadoop y MapReduce) antes de aprender Machine Learning?

No es necesario, no es necesario aprender herramientas de Big Data como Hadoop y MR. Básicamente no necesita esto.

Puede comenzar a aprender directamente con Matemáticas y conocimientos de programación de Python y R Programming

Te puedo sugerir los mejores cursos en línea de Machine Learning

Machine Learning AZ ™: Python práctico y R en ciencia de datos
Bootcamp de ciencia de datos y aprendizaje automático con R
Aprendizaje automático para ciencia de datos

Elige el primer curso ..

de este curso puedes aprender sobre:

Este curso es divertido y emocionante, pero al mismo tiempo nos sumergimos profundamente en Machine Learning. Está estructurado de la siguiente manera:

Parte 1: preprocesamiento de datos
Parte 2: Regresión: Regresión lineal simple, Regresión lineal múltiple, Regresión polinómica, SVR, Regresión de árbol de decisión, Regresión forestal aleatoria
Parte 3 – Clasificación: Regresión logística, K-NN, SVM, Kernel SVM, Naive Bayes, Clasificación del árbol de decisión, Clasificación aleatoria del bosque
Parte 4 – Agrupación: K-medias, agrupación jerárquica
Parte 5 – Aprendizaje de reglas de asociación: Apriori, Eclat
Parte 6 – Aprendizaje de refuerzo: límite de confianza superior, muestreo de Thompson
Parte 7 – Procesamiento del lenguaje natural: modelo de bolsa de palabras y algoritmos para PNL
Parte 8 – Aprendizaje profundo: redes neuronales artificiales, redes neuronales convolucionales
Parte 9 – Reducción de dimensionalidad: PCA, LDA, Kernel PCA
Parte 10 – Selección y refuerzo del modelo: validación cruzada k-fold, ajuste de parámetros, búsqueda de cuadrícula, XGBoost

y también….

Master Machine Learning en Python & R
Tener una gran intuición de muchos modelos de Machine Learning
Hacer predicciones precisas
Haz un análisis poderoso
Hacer modelos robustos de aprendizaje automático
Crea un fuerte valor agregado para tu negocio
Usar Machine Learning para fines personales
Manejar temas específicos como el aprendizaje por refuerzo, PNL y aprendizaje profundo
Manejar técnicas avanzadas como la reducción de dimensionalidad
Sepa qué modelo de Machine Learning elegir para cada tipo de problema
Construya un ejército de poderosos modelos de Machine Learning y sepa cómo combinarlos para resolver cualquier problema.

Cursos adicionales en línea:

principiante a avanzado: aprendizaje automático y redes neuronales
Python for Data Science y Machine Learning Bootcamp

TODO LO MEJOR…

Apache HadoopAprendizaje automáticoBig Datainformática

¿Cuál es la necesidad de memoria virtual en las computadoras?

¿Qué cursos en Stanford enseñan usando el libro "Matemáticas concretas" de Knuth?

¿Cómo pueden aplicarse los temas de informática a la exploración espacial?

¿Una prueba de que NP está en P realmente romperá los algoritmos de criptografía?

¿Los vaqueros mestizos en México o el suroeste inventaron el sombrero de vaquero, o los estadounidenses lo inventaron?

¿Cuál es una forma gratuita de crear un sitio web si no sé cómo codificar?

No son disciplinas estrictamente relacionadas. Hadoop es una plataforma operativa para almacenamiento y procesamiento distribuido. El Aprendizaje automático incorpora una colección de técnicas para analizar datos, según sugiere el término, haciendo que la máquina se entrene para hacer el trabajo.

(Lo digo descaradamente porque yo, Michael Ernest, por mi propia voluntad y sin ningún indicio de acuerdo con mis colegas de Cloudera o de Cloudera, no pienso mucho en el término “aprendizaje automático”. Es un desafío e interesante trabajo, pero el término en sí es una descripción grandiosa y descomunal de lo que es).

En el corazón de MapReduce, o Spark, u otras tecnologías de programación que usan Hadoop, se encuentra un paradigma operativo muy adecuado para un sistema distribuido de recursos informáticos. Dejando de lado una larga lista de diferencias significativas por el momento, lo que MapReduce hace al apoyar las fases de mapeo y reducir los datos no es tan diferente de las fases de transformación y acciones de Spark. Está pensando en mover sus datos a través de actividades de procesamiento en una (tubería, orquestación, gráfico acíclico dirigido, etc.) para obtener algún resultado. Puede ser algo simple, como el número de palabras contadas en algún documento. Puede ser algo mucho más profundo, como predecir la probabilidad de que alguien tenga cáncer, en función de los aspectos visibles de un tumor que tiene.

Hadoop le ofrece la posibilidad de procesar estos hallazgos a gran escala. Machine Learning le brinda herramientas y técnicas para soportar una inferencia o decisión compleja basada en cierta cantidad de datos disponibles.

No tengo consejos útiles sobre cuál es mejor comenzar. Esa respuesta proviene de usted: lo que le interesa, la aptitud que tiene para cualquiera de las disciplinas y las oportunidades que tiene para aplicarlas. Mucha gente dirá que ganarás más dinero como científico de datos: tal vez. Hay mucho más trabajo que paga bien que un título de trabajo que está en tendencia.

Chris Tanner

¡Por supuesto! Puedes aprender ambos al mismo tiempo. Sin embargo, el ecosistema de Hadoop o la tabla de ecosistemas de Hadoop es muy grande. Pero puedes aprenderlo.

Hadoop, como ya sabrá, se usa para el almacenamiento distribuido y el procesamiento de conjuntos de datos de big data utilizando el modelo de programación MapReduce y definitivamente puede aprender a hacer aprendizaje automático junto con él. No necesariamente necesita saber todo, solo concentrarse en un área (eso ‘para que descubra).

Además, debe tener en cuenta que si aprende Hadoop, es mejor aprender aprendizaje automático escalable y minería de datos a través de Apache Mahout y creo que puede integrarlo o usarlo en Scala, Spark (que es compatible con Python, R e incluso Java).

Mejor.

Chris Tanner

Veamos primero sus definiciones,

Hadoop Map / Reduce es un marco de software para el procesamiento distribuido de grandes conjuntos de datos en grupos de cómputo de hardware básico. [1]

El aprendizaje automático (ML) es un campo de la informática que brinda a las computadoras la capacidad de aprender sin ser programado explícitamente [2]

Hadoop trata más sobre el procesamiento de grandes conjuntos de datos para ponerlos en una tubería. Los algoritmos de ML pueden usar esa tubería para construir modelos predictivos. Ambos hacen tareas muy diferentes. Por lo tanto, aprenderlos no se cruza. Uno puede aprender ambos de forma secuencial (en cualquier orden), concurrente o independientemente.

Notas al pie

[1] Hadoop MapReduce

[2] Aprendizaje automático – Wikipedia

Colleen Farrelly

Seguro. Las dos áreas son completamente independientes entre sí. Las arquitecturas de tipo map-reduce se utilizan para muchas cosas que no son de aprendizaje automático, y el aprendizaje automático se puede aplicar a conjuntos de datos mucho más pequeños de lo que necesitaría un clúster de colmena. Eventualmente, es posible que desee aprender sobre cómo aplicar ML a conjuntos de “big data”, lo que presenta desafíos adicionales, pero ciertamente no es allí donde comenzaría.

Hafeez Sk

Estos no tienen mucho que ver con el aprendizaje automático. Esas son más cosas de software / programación. El aprendizaje automático es una rama de las estadísticas, y su conexión con la programación es que las computadoras se utilizan para implementar los algoritmos en la práctica.

Colleen Farrelly

Si. Dado que estos idiomas son de naturaleza discreta.

Paulo López

Sí, porque son independientes entre sí.

Mohammed Al-Shami

Sí, puedes, pero no tienes que hacerlo. El aprendizaje automático no requiere necesariamente habilidades de big data.

Puede ser útil aprender ambos, eso es lo que hice.

Paulo López

Si.

Los dos no están estrechamente relacionados.

Aparte del aprendizaje automático utilizando el primero.

Por lo tanto, incluso podría ser alentado, para hacerlo.