¿Cómo comenzar con Apache Spark y dónde buscar un buen entrenamiento?

Durante el último año he usado varios recursos para aprender Apache Spark. He enumerado algunos de ellos a continuación. En ausencia de capacitación en el aula de uno de los empaquetadores establecidos de Spark (Databricks, Hortonworks, MapR, Cloudera, IBM o Microsoft, por nombrar algunos), es mejor que aprenda de estos recursos a continuación.

  • Quizás los mejores cursos para aprender Apache Spark son los cursos edX de Databricks. Hay tres cursos disponibles como certificado. Ciencia e ingeniería de datos con Apache® Spark ™. Lo bueno de estos cursos son los videos y cuadernos, que facilitan el aprendizaje de los conceptos clave y retroceden y se desafían con nuevas tareas.
    • Introducción a Apache Spark
    • Análisis de Big Data con Apache Spark
    • Aprendizaje automático distribuido con Apache Spark
  • Una excelente manera de adquirir Apache Spark es ver algunas de las conferencias de video de Databricks disponibles en YouTube. Databricks tiene esta introducción (ligeramente anticuada) a Spark. Si tiene un terminal con Spark abierto, puede probar algunos ejemplos simples usted mismo y aprender los conceptos básicos.
  • Además de los videos de capacitación, también puede ver algunos videos de casos de uso de Spark:
  • Udemy tiene un par de cursos de Frank Kane sobre Apache Spark usando Python y Scala. Estos cursos le cuestan algo de dinero, pero le permiten dar el salto de hacer cosas en la línea de comando o shell de Spark, a secuencias de comandos que pueden analizar grandes conjuntos de datos.
    1. Apache Spark 2.0 con Scala – ¡Manos a la obra con Big Data!
    2. Domar Big Data con Apache Spark y Python: ¡manos a la obra!

Además de esto, hay libros útiles y referencias sobre O’Reilly y más. La documentación nativa de Spark es en realidad un buen lugar para comenzar. O’Reilly tiene algunos libros sobre Spark, con Learning Spark y “Advanced Analytics with Spark” en mente.

Hay muchos institutos que brindan capacitación en línea sobre Spark, pero hay muchos puntos a tener en cuenta al elegir finalmente el instituto con el que desea avanzar:

1) ¿Harás prácticas o solo aprenderás teoría?

2) ¿Cuánto conocimiento profundo se proporcionará?

3) ¿Cuántas prácticas proporcionarán?

4) ¿Proporcionarán asistencia para proyectos y colocación?

5) ¿Han colocado a sus alumnos en algún lugar y si puede consultar con sus antiguos alumnos sobre los comentarios?

Hay muchas más preguntas similares que debe tener en cuenta al elegir el instituto final.

Según mi sugerencia, debe seguir adelante con Dataflair, ya que tienen un curso 100% orientado al trabajo que es más del 80% orientado a la práctica para brindarle un conocimiento práctico en profundidad. y proporcionan asistencia de colocación del 100%.

Mire su sesión introductoria de Apache Spark a continuación para comenzar con:

Consulte su curso de capacitación certificado de Apache Spark y Scala | DataFlair

Lea cuáles son sus testimonios | Cursos de formación certificados | DataFlair

Apache Spark es un sistema de computación en clúster de uso general y veloz. Proporciona API de alto nivel como Java, Scala, Python y R. Apache Spark es una herramienta para ejecutar aplicaciones de Spark. Spark es 100 veces más rápido que Hadoop y 10 veces más rápido que acceder a los datos desde el disco. Spark está escrito en Scala pero proporciona API enriquecidas en Scala, Java, Python y R. Se puede integrar con Hadoop y puede procesar datos HDFS existentes.

Puede comenzar a aprender Spark consultando los libros de Apache Spark

DataFlair ofrece capacitación dirigida por un instructor en vivo sobre esta última tecnología en auge. Le proporcionarán el conocimiento práctico que se requiere en las empresas. He encontrado que este sitio web tiene un módulo de curso muy avanzado con soporte 24 * 7.

¡Hola! Estoy feliz de responder esta pregunta.

Apache Spark es un marco de cómputo de clúster de código abierto para el procesamiento en tiempo real. Hoy, es una de las herramientas más populares en el mundo de Big Data. Hubo una vez una revolución creada por Apache Hadoop. Podemos decir con seguridad que Spark ha asumido su posición y mercado hoy.

He trabajado en Apache Spark durante casi un año. Todavía estoy fascinado por la magnitud de las cosas que uno puede lograr al usarlo.

Ya sea que desee trabajar en SQL en grandes GB: TB de datos o gráficos de cómputo, transmisión de datos en tiempo real para procesar o realizar aprendizaje automático, ninguna otra herramienta en el mundo se compara con la potencia y las capacidades que Apache Spark tiene para ofrecer.

Puede leer más sobre qué es Apache Spark en mi respuesta anterior aquí: la respuesta de Sandeep D a ¿Dónde puedo obtener el entrenamiento de Apache Spark?

Características de chispa

Componentes de chispa

Los componentes de Spark son los que hacen que Apache Spark sea rápido y confiable. Muchos de estos componentes de Spark se crearon para resolver los problemas que surgieron al usar Hadoop MapReduce. Apache Spark tiene los siguientes componentes:

  1. Spark Core: Spark Core es el motor base para el procesamiento de datos distribuidos y paralelos a gran escala. El núcleo es el motor de ejecución distribuido y las API de Java, Scala y Python ofrecen una plataforma para el desarrollo distribuido de aplicaciones ETL.
  2. Spark Streaming: se utiliza para procesar datos de transmisión en tiempo real. Por lo tanto, es una adición útil a la API principal de Spark. Lea más en Spark Streaming.
  3. Spark SQL: Spark SQL es un nuevo módulo en Spark que integra el procesamiento relacional con la API de programación funcional de Spark. Admite consultas de datos a través de SQL o mediante el lenguaje de consulta Hive. Lea más sobre Spark SQL.
  4. GraphX: GraphX es la API de Spark para gráficos y cómputo paralelo a gráficos. Por lo tanto, extiende el Spark RDD con un gráfico de propiedades distribuidas resilientes.
  5. MLlib (Machine Learning): MLlib significa Machine Learning Library. Spark MLlib se utiliza para realizar aprendizaje automático en Apache Spark. Lea más en Spark MLlib.

Compartiré algunos de mis blogs sobre estos componentes de Spark aquí:

Tutorial de Spark, Tutorial de Streaming de Spark, MLLib de Spark, Tutorial de SQL de Spark y Preguntas de entrevista de Spark. He implementado casos de uso real en la vida real, tales como detección de terremotos, análisis de sentimientos, sistema de recomendación de películas y análisis de datos de vuelo.

En Edureka somos la plataforma de aprendizaje electrónico líder para tecnologías de Big Data. Puedes seguir este tutorial de Spark desde nuestra lista de reproducción de Apache Spark en YouTube.

Eche un vistazo a nuestra Capacitación de certificación Apache Spark interactiva y en vivo aquí, que viene con soporte 24 * 7 para guiarlo durante su período de aprendizaje.

En Edureka estamos comprometidos a crear una plataforma alternativa para los estudiantes que desean continuar y completar cursos asistiendo a cursos en línea en vivo, utilizando un equipo de educadores ridículamente comprometidos que no se detendrán ante nada para impartir educación.

Primero aprende uno de los idiomas que puedes usar para programar Spark. Scala es el idioma en el que se basa Spark, por lo que recomendaré este lenguaje, pero Python también es bueno ya que la mayoría de los científicos de datos usan este lenguaje. Aprenda a manejar estructuras de datos como listas, tuplas, mapas, etc. Este es el primer paso. Siguiente descarga chispa y configuración del entorno de desarrollo. Use SBT y nodepad o un editor para escribir su código y compilar con SBT. Ejecute Spark-Shell, que es un entorno de secuencias de comandos de shell interactivo para Spark. El 90% del código en producción se escribe y prueba por primera vez en Spark-Shell, así que domine esto y escriba sus primeros códigos en este entorno. una vez que se moje los pies, compile un archivo Scala y ejecútelo en una computadora local o en un clúster.

Software de gestión de casos legales

Es posible que haya encontrado varios recursos en línea que afirman que convertirse en un científico de datos requiere que un candidato posea habilidades expertas en diversos campos como desarrollo de software, lenguajes de consulta de bases de datos, aprendizaje automático, programación, matemáticas, estadísticas, visualización de datos, etc. Esto parece ser mucho, y muchos se desaniman una vez que pasan por esta inmensa lista de habilidades que les dicen que es necesario para convertirse en científicos de datos. Hay diferentes tipos de trabajos de ciencia de datos que uno puede solicitar, al comprender claramente las descripciones de los trabajos de ciencia de datos. Las habilidades de los científicos de datos son tan variadas que es necesario comprender qué habilidades posee uno para convertirse en científico de datos y cuáles pueden desarrollarse con el tiempo para que coincidan con los trabajos de ciencia de datos abiertos.

Personalmente, encontré DataFlair lo mejor, ya que hice la capacitación en línea de Spark y Scala desde allí y me enseñaron desde lo básico hasta el nivel avanzado, todo con prácticas y proyectos en vivo que me dieron buenos conocimientos que podría usar en mi empresa en el proyecto Spark. Cubrieron todos los conceptos como Streaming, RDD, MLlib, GraphX, etc. con gran detalle. También proporcionaron cursos gratuitos de Java y Scala con el curso Spark, ya que era necesario para codificar Spark.

Las personas que desean aprender esta tecnología pueden comunicarse conmigo en [correo electrónico protegido] si necesitan ayuda con respecto a la tecnología o capacitación o preparación de entrevistas.

Le pido que consulte otra respuesta mía a una pregunta similar:

La respuesta de Ashish Yadav a ¿Cómo se puede aprender Spark fuera de su trabajo diario?

Solo hay dos requisitos previos en mi opinión:

  1. Una comprensión básica de la programación en cualquier lenguaje.
  2. Una idea general de computación distribuida / paralela.

Si eres nuevo en programación, te sugiero comenzar con Python, ya que es relativamente fácil de entender, en mi opinión.

Continúe con DataFlair como hice este curso hace 2 meses desde allí y obtuve el conocimiento completo que quería. Entrenamiento final con el mejor entrenador que comparte su experiencia de la vida real para obtener una imagen clara de la industria real. Responde a todas las preguntas muy bien y explica los conceptos de una manera tan fácil que resulta más fácil aprender la tecnología.

Puede enviarme un correo electrónico a [correo electrónico protegido] si necesita orientación sobre Hadoop o Spark.

Spark es una plataforma para hacer computación distribuida confiable. Como tal, es útil para cualquier caso de uso en el que tenga muchos datos y desee procesarlos. Esto es, obviamente, increíblemente amplio, lo que significa que los casos de uso van desde el aprendizaje automático (para motores de recomendación, para el análisis y detección de seguridad y amenazas

Comience aquí Mastering Apache Spark 2.0

mejor libro para comenzar a aprender apache spark.