Para Big Data, ¿cómo podría uno aprenderlo desde cero?

Big Data no es más que grandes conjuntos de datos que deben almacenarse y analizarse para revelar patrones, tendencias, asociaciones, etc. Si ya conoce la programación, puede comenzar de inmediato. Aquí están las cosas en las que me enfocaría:

  1. Bases de datos (principalmente sistemas de bases de datos NoSQL), estructuras de datos
  2. Python o Golang. Este último es nuevo pero mucho más rápido que Python y otros lenguajes de programación. La programación concurrente es nativa en Go. Está respaldado por Google y parece que tiene un futuro prometedor. Python, por otro lado, es muy maduro, fácil de aprender y súper dinámico. Elige uno, ambos pueden funcionar para Big Data. Hay otros lenguajes de programación que funcionan bastante bien, pero estos dos son de gran uso en el gran espacio de datos.
  3. Chispa con Hadoop. Spark está escrito en Scala y le quita la complejidad a Hadoop. Tiene bibliotecas para aprendizaje automático, procesamiento de gráficos, transmisión y muchas otras cosas. Tiene interfaces para Java, Scala, R y Python. Entonces puedes elegir uno de los cuatro. Tenga en cuenta que Spark no es un reemplazo para todo el ecosistema de Hadoop, sino una mejor alternativa a MapReduce.
  4. Búsqueda elástica, Logstash, Kibana. La pila se llama ELK. El primero es para el almacenamiento y la búsqueda, el segundo es para la recopilación de datos y el tercero es para la visualización. De hecho, esta pila sola es suficiente para la mayoría de las necesidades básicas de almacenamiento y procesamiento de Big Data.
  5. En el lado del sistema, aprenda sobre Docker, configurando un clúster y cosas básicas de DevOps. En la mayoría de los casos, habrá una persona separada que se encargará de estas cosas, pero no hay nada de malo en aprenderlas.

Unix

Si estás en una Mac, solo juega con la línea de comandos, instala algunas herramientas y aprende a usar los comandos básicos. Si está en una máquina con Windows, instale una VM Linux, o incluso mejor, un arranque dual, y use Linux como su sistema operativo durante algunas semanas. Juega con él y rápidamente dominarás las cosas.

Pitón

Aprender Python es bastante fácil. Puedo recomendar esto: Introducción a la programación interactiva en Python (Parte 1) – Rice University | Coursera Es un curso divertido que te enseña las bases de Python haciendo pequeños juegos.

Aprendizaje automático

Eso es un largo viaje. Necesita una buena base en programación y estadísticas para dominar el aprendizaje automático. Comience por hacer este curso y vea si le gusta: Machine Learning – Stanford University | Coursera

Hadoop

Aprender big data desde cero es difícil. Si desea aprenderlo de la manera más brutal pero mejor, puede asumir el desafío de instalar un clúster Hadoop desde cero. Asegúrese de leer sobre el sistema de archivos HDFS, el paradigma de programación MapReduce y cómo Hadoop distribuye sus datos y trabajos.

  1. Instale algunas máquinas virtuales Linux. Siga este tutorial sobre cómo configurar las máquinas virtuales para Hadoop: Cómo: Crear un clúster Hadoop simple con VirtualBox – Blog de ingeniería de Cloudera No use un sandbox como en el tutorial. En su lugar, instale Hadoop desde cero.
  2. Siga este tutorial para configurar un clúster de nodo único: Hadoop: Configuración de un clúster de nodo único.
  3. Luego, instale un clúster completamente distribuido utilizando este tutorial: Configuración del clúster de Hadoop Configurar todo es una molestia, pero aprenderá mucho si lo hace.
  4. Instale la biblioteca de Python MRJob: Yelp / mrjob
  5. Use SCP para transferir un conjunto de datos a su clúster y escriba un script MRJob para ejecutarlo. Busque ejemplos en línea.

Espero que tengas mucho tiempo libre en tus manos. ¡Buena suerte!

Bueno, primero, debes decidir si quieres ser un ingeniero de datos o un analista de datos / científico de datos.

La mayoría de las respuestas aquí se centran en el proceso de Ingeniería de Datos. Aquí están mis dos centavos sobre cómo ser analista:

  1. Comience con Introducción a las estadísticas con ejercicios prácticos sobre el modelador SPSS / estadísticas SPSS o cualquier otro software estadístico. Una vez que se sienta cómodo con las distribuciones de probabilidad y las pruebas de hipótesis, puede avanzar a la siguiente etapa, es decir, Aprendizaje automático.
  2. Te recomiendo que aprendas R primero. Hay muchos recursos en línea sobre cómo implementar algoritmos de aprendizaje automático en R. Use R-bloggers. Conozca más sobre: ​​regresión univariada, regresiones multivariadas, análisis de series de tiempo, análisis de decisiones, análisis discriminante lineal, análisis discriminante cuadrático, K significa agrupación, máquinas de vectores de soporte, naive bayes y redes neuronales. Aprende a implementarlos en R.
  3. Consulte el Repositorio de aprendizaje automático de UCI y puede usar conjuntos de datos en UCI para practicar los algoritmos mencionados anteriormente en R.
  4. Una vez que se sienta cómodo con los algoritmos R y Machine Learning, puede comenzar a practicar en Python. Aprenda Pandas, Numpy, Scipy, Matplotlib y SNS. En este punto, también deberías haber comenzado Kaggling
  5. Instala Spark y echa un vistazo a Spark’s MLib. A estas alturas ya debería estar lo suficientemente cómodo con ML para practicar algoritmos de ML en Storm and Spark y Big Data.

Hadoop es esencialmente un marco de código abierto, pero implementarlo para diversas aplicaciones comerciales requiere una cantidad considerable de esfuerzo y comprensión de los conceptos y procedimientos básicos. Existen numerosos proveedores especializados que empaquetan y racionalizan la plataforma Hadoop para que pueda implementarse fácilmente para aplicaciones de misión crítica.

Empaquetado: Hadoop puede ser de código abierto, pero necesita la experiencia de un proveedor de Hadoop para completarlo en todos los aspectos. Diferentes compañías tienen diferentes requisitos de sus sistemas Hadoop y esto podría incluir servicios adicionales o herramientas adicionales que el Proveedor proporcionará por una tarifa nominal.

Asistencia: hoy Hadoop se implementa en todos los ámbitos y la mayoría de estas organizaciones no tienen una comprensión clara de cómo funciona exactamente Hadoop. Esto requiere soporte y asistencia para administrar aplicaciones de misión crítica. El proveedor de Hadoop trae consigo toda la experiencia técnica y el conocimiento para garantizar que todo funcione sin problemas en todo momento con respecto a Hadoop.

Seguridad: aunque Hadoop es altamente resistente y tolerante a fallas, aún necesita el respaldo de seguridad de los expertos que conocen los entresijos de Hadoop. Puede haber algún error o falla que deba repararse, o parches de software y actualizaciones que deban instalarse. Por lo tanto, el proveedor de Hadoop proporciona servicios tan valiosos.

Debe tener un propósito para comenzar su viaje de aprendizaje.

Dado que comienza desde cero, debe conocer la relación entre las herramientas y por qué es necesario usar cada una de ellas:

con mi experiencia simple, me llevó más de 15 días buscando llegar a esta definición,

Hablamos de Big Data cuando tenemos un problema relacionado con la extracción de conocimiento de los datos almacenados que deben resolverse, pero estos datos tienen algunas características. Los más comunes son:

** Volumen **: tiene una gran cantidad de datos, más de varios terabytes de datos que no solo deben almacenarse sino analizarse con herramientas y algoritmos avanzados, como los algoritmos de Machine Learning, los algoritmos ML se utilizan principalmente para extraer diferentes relaciones desconocidas entre datos ya en nuestra posesión.

** Velocidad **: los datos llegan en tiempo real, con alta velocidad. Es realmente importante adquirir servidores de alto rendimiento capaces de producir conocimiento al instante. Una de las herramientas más utilizadas que funcionan bien es Hadoop, un marco que debe ser dominado, ofrece un sistema de archivos distribuido HDFS que lo ayuda a realizar análisis de datos almacenados en diferentes máquinas sin tener que conocer su ubicación (utilizando el paradigma de programación MapReduce)

** Variedad **: los datos que desea analizar deben estar en diferentes tipos (texto, imágenes, videos, archivos de agujeros, …), formatos (estructurados, no estructurados, semiestructurados, …) y deben provenir de diferentes fuentes: sensores, redes sociales, publicaciones de blog, …

* Diferentes tipos de datos, grandes volúmenes y la necesidad de aplicar consultas complejas y obtener respuestas en tiempo real → Se prefieren las bases de datos NoSQL por su alto rendimiento, alta escalabilidad y alta disponibilidad. *

Necesita aprender Python, porque es realmente poderoso en el análisis de datos, incluso hay API de Python que ofrecen algoritmos ML implementados. Una alternativa podría ser el lenguaje R.

Puede comenzar aprendiendo la lógica de los algoritmos de Machine Learning, sus conceptos, diferencias y aplicaciones. En mi opinión, este sitio web ML Mastery (Un recorrido por los algoritmos de aprendizaje automático) fue muy útil para mi comienzo, ofrecía algunas implementaciones de Python como ejemplos.

Luego aplique algo de ML en conjuntos de datos de Internet (UCI Machine Learning, (UCI Machine Learning Repository) un repositorio de ML para conjuntos de datos abiertos).

También puede comenzar a aprender algunas bases de datos NoSQL, por ejemplo, Neo4j es una base de datos orientada a gráficos, con su lenguaje de consulta muy simple Cypher, ¡podría ser un buen comienzo! (desde su sitio web Neo4j (Neo4j: la base de datos de gráficos líder en el mundo) podrá seguir un curso gratuito para dominar Neo4j)

Hadoop puede ser lo último en aprender, después de dominar las herramientas anteriores.

Buena suerte. Desearía que mi respuesta fuera útil.

No hay requisitos previos predefinidos o estrictos para aprender Hadoop, pero la Capacitación integral de certificación de Hadoop puede ayudarlo a obtener un trabajo de Big data Hadoop si está listo para desarrollar una carrera en Big Data Domain.

Curso de certificación de Big Data Hadoop , los alumnos obtendrán un conjunto de habilidades prácticas en Hadoop en detalle, incluidos sus módulos fundamentales y más recientes, como HDFS, Map Reduce, Hive, HBase, Sqoop, Flume, Oozie, Zoopkeeper, Spark y Storm. Al final del programa, los aspirantes reciben la certificación Big Data & Hadoop. También trabajará en un proyecto como parte de su capacitación que lo preparará para asumir tareas en Big Data.

IT Skills Training Services es uno de los mejores proveedores de capacitación para cursos de Big Data Analytics en India y EE. UU.

Okay.

Suponiendo que tiene conocimientos básicos sobre la codificación básica de programación, será una tarea fácil para usted.

para UNIX puede comenzar desde comandos básicos, instalar UNIX en su máquina personal y comenzar a practicar desde comandos básicos en operaciones de archivo y directorio. ensuciarse las manos con el comando básico y luego pasar a los siguientes comandos como copiar, cortar, buscar, grep, entonces es fácil obtener el comando sobre los comandos sed.

Python: puedes comenzar desde la academia de código. Si tiene un teléfono inteligente, también puede instalar la aplicación Python en el móvil y comenzar a hacer ejercicios. será más fácil para ti si practicas más.

Aprendizaje automático: te recomendaré que comiences el curso de aprendizaje automático de Andrew Ng. una vez que se complete, puede saltar a otros cursos relacionados desde EDX, Udacity. Paralelamente, puede pasar por Estructura de datos y algoritmos también para obtener conocimientos básicos.

Hadoop: Para hadoop hay suficiente material disponible en internet.

Instala Hadoop en tu máquina y comienza a jugar con él.

Hay videos de tubo sobre la instalación de hadoop en la máquina.

Comenzaría con un curso simple que cubre estos temas.

  • Tableau = Software de visualización de datos, preprocesamiento de datos muy limitado
  • grep, perl, sed. Software de preprocesamiento de datos. Tenga en cuenta que Perl reemplaza a los otros dos
  • Pitón. Lenguaje de programación.
  • La máquina funciona. Ni idea
  • Hadoop Se utiliza para distribuir su solución en varias máquinas.

En general, suena como un montón de herramientas sin nada que las mantenga juntas. Haría un curso sobre minería de datos | Coursera e ir desde allí.

Déjame decirte cómo cambié del proyecto de soporte al desarrollo de Hadoop:

Primero aprendí los conceptos básicos de Java y luego comencé mi capacitación en línea de Hadoop en DataFlair. Solo me proporcionaron un curso de Java también gratuito con el curso de Hadoop para aprender lo esencial de Java para aprender Hadoop. Los comandos de Linux necesarios para aprender Hadoop también fueron proporcionados por ellos. Allí realicé muchas prácticas y proyectos en tiempo real en Hadoop que me proporcionaron conocimientos completos para descifrar entrevistas y comenzar mi carrera en esta tecnología.

Puedes seguir el mismo camino para aprenderlo. Puede enviarme un correo electrónico a [correo electrónico protegido] si necesita ayuda con respecto al mismo.