¿Desde dónde debería comenzar para aprender el desarrollo de big data?

Gracias por A2A ..

Hoy en día, “Big Data” tuvo un gran auge en los sectores de TI de todo el mundo. Como todos sabemos, los trabajos analíticos pagan mucho. Enorme cantidad de datos que generamos día a día para ser administrados para este propósito BIG DATA entra en escena.

Como hay una descripción adjunta a esta pregunta, ¿no podría obtener más detalles sobre su conocimiento o de qué campo es? que trabajo haces Estas preguntas son muy importantes. Te consideraré más fresco e intentaré responder a tu pregunta.

Big data no es una asignatura o idioma, por lo que puede aprender estudiándolo. En realidad es una combinación de un montón de temas, tecnologías, etc.

Consideremos esta ecuación,

Big Data = Habilidades de programación + Estructura de datos y algoritmos + Habilidades analíticas + Habilidades de base de datos + Matemáticas + Aprendizaje automático + PNL + OS + Criptografía + Programación paralela.

¡Sí! No estoy bromeando aquí, realmente necesitas tener conocimiento de estos temas.

Pero no te preocupes, puedes prepararlo desde cero. Hay enormes recursos disponibles en Internet que lo ayudarán a dominar todas las habilidades.

1] Antes de comenzar:

Me he encontrado con el hermoso curso introductorio de la universidad de Stanford. Si eres un novato en el campo de la informática, completa el curso CS101.

Aquí está el enlace para registrarse en CS101:

Informática 101

2] Habilidades de programación:

Como mencioné anteriormente, las habilidades de programación son obligatorias para comenzar con Big Data. Necesita aprender los siguientes lenguajes de programación.

  • Aprende Python:

Python se considera el lenguaje de programación más fácil del mundo debido a su sintaxis simple. Puedes aprender Python rápidamente.

Aprenda Python aquí: Tutoriales de Python: Temporada 1 (No necesita ser Python Ninja, solo se necesita información básica).

  • Aprende Java:

Si está buscando “Trabajo de desarrollador de Big Data”, le sugiero que aprenda Java. Hadoop está escrito en Java, por lo que el conocimiento de los conceptos básicos de Java es esencial para aprender Hadoop.

Aquí están los mejores recursos disponibles en Internet para preparar JAVA: Tutoriales para desarrolladores de Java y capacitación en línea

El MIT también ofrece un curso de código abierto sobre Java. Aquí está el enlace: Introducción a la programación en Java

[Nota: cualquier lenguaje OOP es obligatorio para aprender Big Data]

3] Estructura de datos y algoritmos:

¡Sí! Debes tener las habilidades de DS y Algoritmo. Puede tomar el curso MIT para dominarlos: Introducción a los algoritmos

Aprenda sobre los tipos de datos fundamentales (pila, colas y bolsas), algoritmos de clasificación (clasificación rápida, combinación combinada, clasificación múltiple) y estructuras de datos (árboles de búsqueda binarios, árboles rojo-negros, tablas hash), Big O.

4] Habilidades analíticas:

El pensamiento analítico te hará PRO en Big Data. Te sugiero que trates de resolver acertijos de internet o comiences a jugar al ajedrez. Hacer estas cosas ampliará su pensamiento analítico.

5] Habilidades de base de datos:

Como vas a jugar con muchos datos, mi recomendación es aprender SQL. Puede aprender SQL aquí: SQLZOO o del canal de youtube “Manish Sharma”: tutoriales de SQL para principiantes / tutoriales de Oracle Database.

6] Matemáticas:

Si su experiencia matemática depende del cálculo multivariable y el álgebra lineal, tendrá suficiente experiencia para comprender casi toda la probabilidad / estadística / aprendizaje automático para el trabajo.

  • Cálculo multivariable: aquí puedes aprender cálculo multivariable. Por favor visite este enlace: Cálculo multivariable
  • Álgebra lineal numérica / Álgebra lineal computacional / Álgebra matricial: Álgebra lineal
  • Aprendamos Estadística y Probabilidad: La probabilidad también se llama la ciencia de la incertidumbre y ese concepto es más importante en el campo de la DS. Puedes aprenderlo de los cursos del MIT. Aquí está el enlace de youtube: youtube.comProbability and Statistics MIT
  • Aquí hay otra serie importante del MIT: Matemáticas para la informática

7] Aprendizaje automático:

Otro tema importante que todos deberían aprender es el “Aprendizaje automático”. Necesitas tener conocimientos de matemáticas para aprender ML. Aquí está el mejor tutorial del mundo sobre ML: Lecture Collection | Aprendizaje automático

8] PNL:

Aquí hay algunos recursos que lo ayudarán en PNL:

Libro:

Procesamiento del habla y el lenguaje (2a edición): Daniel Jurafsky, James H. Martin: 9780131873216: Amazon.com: Libros

Tutoriales web:

Inteligencia artificial Procesamiento del lenguaje natural

Aquí está la mejor referencia, Procesamiento de lenguaje natural con Python

9] Sistema operativo:

Desarrolle un sólido conocimiento del sistema operativo a partir de los siguientes recursos.

Recursos en línea: UC Berkeley Computer Science 162

10] Criptografía:

Aquí está el enlace a los maestros en criptografía: Tutorial de criptografía

11] Programación paralela:

Programación paralela y concurrente en Haskell: Técnicas para programación multinúcleo y multiproceso por Simon Marlow es un libro fantástico.

El último paso:

El procedimiento de más de 11 pasos es realmente importante si desea hacer una gran carrera en tecnologías de Big Data. Después de completar el paso anterior, me gustaría insistir en que visite el siguiente enlace y comience a aprender sobre Big Data:

Universidad de Big Data | Cursos de ciencia de datos

**** Proyecto de trabajo ****

Aquí hay otra forma de capturar lo que un proyecto de Big Data podría significar para su empresa o proyecto: estudie cómo otros han aplicado la idea.

Estos son algunos ejemplos del mundo real de Big Data en acción:

  • Las compañías de productos de consumo y las organizaciones minoristas están monitoreando las redes sociales como Facebook y Twitter para obtener una visión sin precedentes del comportamiento del cliente, las preferencias y la percepción del producto.
  • Los fabricantes están monitoreando los datos de vibraciones diminutas de sus equipos, que cambian ligeramente a medida que se desgastan, para predecir el momento óptimo para reemplazar o mantener. Reemplazarlo demasiado pronto desperdicia dinero; reemplazarlo demasiado tarde desencadena un costoso paro laboral
  • Los fabricantes también están monitoreando las redes sociales, pero con un objetivo diferente al de los vendedores: lo están utilizando para detectar problemas de soporte del mercado de accesorios antes de que una falla de la garantía se vuelva públicamente perjudicial.
  • El gobierno está haciendo públicos los datos a nivel nacional, estatal y de la ciudad para que los usuarios desarrollen nuevas aplicaciones que puedan generar bienes públicos. Conozca cómo las agencias gubernamentales reducen significativamente la barrera para implementar datos abiertos con NuCivic Data
  • Las organizaciones de servicios financieros están utilizando datos extraídos de las interacciones con los clientes para dividir y dividir a sus usuarios en segmentos finamente ajustados. Esto permite a estas instituciones financieras crear ofertas cada vez más relevantes y sofisticadas.
  • Las agencias de publicidad y marketing están rastreando las redes sociales para comprender la capacidad de respuesta a campañas, promociones y otros medios publicitarios.
  • Las compañías de seguros están utilizando el análisis de Big Data para ver qué solicitudes de seguro de hogar pueden procesarse de inmediato y cuáles necesitan una visita en persona validada por un agente.
  • Al adoptar las redes sociales, las organizaciones minoristas involucran a defensores de la marca, cambian la percepción de los antagonistas de la marca e incluso permiten que los clientes entusiastas vendan sus productos.
  • Los hospitales están analizando datos médicos y registros de pacientes para predecir aquellos pacientes que probablemente busquen readmisión dentro de unos meses después del alta. El hospital puede intervenir con la esperanza de evitar otra costosa estadía en el hospital.
  • Las empresas basadas en la web están desarrollando productos de información que combinan datos recopilados de los clientes para ofrecer recomendaciones más atractivas y programas de cupones más exitosos.
  • Los equipos deportivos están utilizando datos para rastrear la venta de boletos e incluso para rastrear estrategias de equipo.

Consejo: Seguir los 11 pasos e implementar uno de los proyectos mencionados y poner su currículum significa mucho para el reclutador.

Gran gran suerte para su carrera de Big Data.

[Nota: si necesita ayuda, no dude en enviarme un mensaje.]

Aprender Big Data es muy simple cuando tienes metas y expectativas claras definidas. La gran cantidad de conceptos, tecnologías y lenguajes de programación pueden poner en peligro sus motivaciones si carece de hitos claros. Su mejor oportunidad de tener éxito es definir su objetivo antes de comenzar su viaje de aprendizaje. Una manera fácil de aprender Big data es a través de recursos en línea. También puedo sugerirle los mejores cursos en línea de Big Data.

# 1 El último Hadoop práctico: ¡domestique su Big Data!

# 2 Aprenda con el ejemplo: Hadoop, MapReduce para problemas de Big Data

elige el primer curso … de este curso puedes aprender sobre

El mundo de Hadoop y “Big Data” puede ser intimidante: cientos de tecnologías diferentes con nombres crípticos forman el ecosistema de Hadoop. Con este curso, no solo comprenderá cuáles son esos sistemas y cómo encajan entre sí, sino que aprenderá cómo usarlos para resolver problemas comerciales reales.

Aprenda y domine las tecnologías de big data más populares en este curso integral, impartido por un ex ingeniero y gerente senior de Amazon y IMDb. Iremos más allá de Hadoop y nos sumergiremos en todo tipo de sistemas distribuidos con los que necesite integrarse.

  • Instale y trabaje con una instalación real de Hadoop directamente en su escritorio con Hortonworks y la interfaz de usuario de Ambari
  • Administre big data en un clúster con HDFS y MapReduce
  • Escribir programas para analizar datos en Hadoop con Pig y Spark
  • Almacene y consulte sus datos con Sqoop, Hive, MySQL, HBase, Cassandra, MongoDB, Drill, Phoenix y Presto
  • Diseñe sistemas del mundo real utilizando el ecosistema Hadoop

y también..

  • Diseñe sistemas distribuidos que gestionen “big data” utilizando Hadoop y tecnologías relacionadas.
  • Use HDFS y MapReduce para almacenar y analizar datos a escala.
  • Use Pig y Spark para crear scripts para procesar datos en un clúster de Hadoop de formas más complejas.
  • Analice datos relacionales usando Hive y MySQL
  • Analice datos no relacionales usando HBase, Cassandra y MongoDB
  • Consultar datos interactivamente con Drill, Phoenix y Presto
  • Elija una tecnología de almacenamiento de datos adecuada para su aplicación
  • Comprenda cómo YARN, Tez, Mesos, Zookeeper, Zeppelin, Hue y Oozie administran los clústeres de Hadoop.
  • Publique datos en su clúster Hadoop usando Kafka, Sqoop y Flume
  • Consuma la transmisión de datos usando Spark Streaming, Flink y Storm

Recursos relevantes

# 3 Master Apache Hadoop – Entrenamiento de Hadoop de habilidades infinitas

Hay muchas formas de aprender Hadoop en línea. Puede aprenderlo usted mismo viendo videos gratuitos disponibles en la red y leyendo cosas gratis. o puede hacerlo uniéndose a cualquier capacitación en línea.

Puedes comenzar a aprender Hadoop y chispear aquí mismo viendo los siguientes videos:

Una vez que haya terminado con la introducción, debe aprender más sobre Hadoop y sus componentes del ecosistema, lo que puede hacer a través de los siguientes enlaces:

Sumérgete en Big Data Hadoop para dominar la última tecnología

Tutorial Hadoop HDFS – Introducción, arquitectura, características y operaciones de HDFS

Tutorial de Hadoop MapReduce: una guía completa

Tutorial completo para Hadoop YARN: otro negociador de recursos

Encontrará varios otros artículos sobre esta tecnología en el siguiente enlace:

Blogs de DataFlair

Si desea aprenderlo a través de la clase en línea, le sugiero que elija DataFlair, ya que ofrecen un curso 100% orientado al trabajo que lo ayudará a conseguir la compañía de sus sueños.

Permítanme compartir mi experiencia de capacitación en Hadoop que me ayudó en mi carrera:

Tomé la capacitación en línea Big Data Hadoop de DataFlair y me llevó alrededor de 2 meses completar la capacitación junto con proyectos en tiempo real. En este período de 2 meses, me enseñaron todos los conceptos de Big Data Hadoop, desde el inicio hasta las funciones avanzadas, y la capacitación completa fue orientada a la práctica.

A continuación se presentan algunas de sus características clave que me gustaría destacar aquí:

1. El contenido del curso está muy bien organizado, y ejemplos de problemas reales de la industria.

2. El instructor tiene un alto nivel de conocimiento y siguió compartiendo su experiencia en tiempo real con nosotros para hacernos entender mejor las cosas. Siempre nos animó a trabajar más duro para comenzar nuestra carrera en Big Data.

3. Me pareció muy útil tener el contenido del curso disponible en LMS de por vida.

4. Los cuestionarios y las preguntas de asignación nos ayudaron a verificar nuestro conocimiento y el nivel de trabajo duro que necesitamos para hacer más.

5. Las entrevistas simuladas y las sesiones de los estudiantes que se colocan en el dominio de Big Data es una característica clave más de DataFlair que lo hace tan popular.

En general, mi experiencia en la capacitación en línea de DataFlair fue muy buena y también se lo recomendaré a otros. Puede comunicarse conmigo en [correo electrónico protegido] si necesita ayuda relacionada con la tecnología o el asesoramiento profesional.

Gracias Jeevan Addepalli por la solicitud de respuesta.

  • Para comenzar a aprender big data, diría que Google es tu mejor amigo. Es un error saltar a los confines del análisis de Big Data sin echar un vistazo a sus conceptos básicos primero. Puede muy abrumador. Comience con una consulta de “qué es big data”.
  • Una vez que termine lo básico, tome un curso de introducción gratuito sobre Edx o Coursera sobre temas como estadísticas, R o Big Data. Esto lo ayudará a comprender exactamente qué se espera que aprenda y esto es lo que desea.
  • Una vez que tenga esta solución, puede tomar un curso en línea de Big Data Hadoop, que lo preparará para comenzar su carrera profesional.

Puede leer más sobre las rutas de aprendizaje exploradas en ciencia de datos en nuestro sitio web

Una nota para el sabio, necesita tener conocimientos de programación y estadística para embarcarse en un viaje de big data. No renuncies a tu trabajo diario si no tienes estas habilidades básicas.

En cierto modo, cuando traté de responder la respuesta de Akash Dugam apareció y creo que esta es una muy buena manera de comenzar.

Entonces solo puedo agregar lo que hago ahora para completar mi conocimiento. Si realmente se trata de desarrollo, me registraría en Pluralsight y completaría todos los cursos relacionados con Big Data, Hadoop, Spark, etc.

También hay algunos buenos MOOC. Uno que recomiendo como desarrollador son los cursos de Oderskys en Coursera.

También invierta tiempo para construir su infraestructura y convertirse en un buen desarrollador. La mejor manera de hacerlo es crear un entorno de prueba con Docker.

Finalmente, debes probar tus conocimientos. Vaya a stackoverflow y elija las preguntas correctas para sus tareas. Si alcanzas 1000 puntos con eso, definitivamente eres bueno.

Big Data es un término utilizado para describir el crecimiento exponencial y la disponibilidad de datos estructurados y no estructurados. Aunque no se refiere a ninguna cantidad establecida, el término se usa cuando se habla de magnitudes que se miden en petabytes y exabytes de datos.

En términos más generales, el término se refiere a tecnologías que pueden almacenar, administrar y analizar un gran conjunto de datos para resolver problemas complejos.

Todos los días, estamos creando cerca de 2.5 quintillones de bytes de datos. El 90% de los datos en todo el mundo hoy en día se han creado en los últimos dos años. ¿De dónde no provienen los datos? Cada rincón del mundo tiene algunos datos que ofrecer: la información climática se obtiene de sensores, publicaciones en sitios de redes sociales, imágenes y videos digitales, registros de transacciones, GPS de teléfonos celulares, etc. [1]

Inicialmente, la mejor manera de comenzar a aprender Big Data podría ser a través de cursos en línea disponibles en el Mercado.

Habiendo investigado a fondo y hecho el curso. Me sorprendió gratamente la oferta de cursos de Simplilearn. El programa Master Master de Hadoop Architect de Simplilearn proporciona especialización no solo en Big Data y Hadoop Developer, sino también en Apache Spark y Scala, junto con MongoDB Developer y Administrator / Apache Cassandra. El programa también comprende Storm, Impala, Kafka, que son conjuntos de habilidades adicionales.

A diferencia de otros proveedores de cursos en línea, Simplilearn’s ofrece una oferta única de Flexi-Pass, en la que paga una vez y obtiene acceso ilimitado a más de 7 lotes durante 90 días.

Además, sus cursos son conducidos por expertos internacionales en la materia. Además, obtienes la certificación de finalización del curso junto con un Certificado de experiencia de 3 meses, ya que te hacen trabajar en proyectos exhaustivos de la industria durante el curso.

Notas al pie

[1] ¿Cuál es el gran problema de Big Data | Simplilearn

“Big data” es solo una palabra de moda que se refiere al análisis de datos en grandes conjuntos de datos.

Aprenda ciencia de datos aplicada a conjuntos de datos que puede analizar en la computadora de su hogar. Luego, si está interesado, explore programas de análisis distribuidos como Hadoop, Spark, etc.

Echa un vistazo a dataquest.io

Si está interesado en aprender SAS, tenemos varios cursos gratuitos de e-learning para ayudarlo a comenzar. Las personas generalmente comienzan con la Programación 1 de SAS: Essentials, que comprende la mitad del contenido del examen de Certificación de Programador Base. Aquí hay una lista de los cursos de e-learning que ofrecemos: SAS Training en los Estados Unidos – e-Learning