En Kovid, domine las habilidades de procesamiento de datos en tiempo real necesarias para crear aplicaciones Spark utilizando la programación avanzada de Scala. o Analytics con Python y R Programming.
Análisis de datos con Spark & Scala Rellene este formulario de contacto, un entrenador experto le devolverá la llamada y le explicará el plan de estudios del curso y los primeros 15 inscritos obtendrán el mejor precio.
Experiencia como científico de datos
- ¿Siempre estamos mejor con más datos en Machine Learning en la práctica?
- Cómo prepararse para una maestría en informática en aprendizaje automático / ciencia de datos como una persona sin mucha experiencia en el campo de la informática
- Cuando un científico de datos descubre un patrón de mercado constante, ¿cómo puede saber cuánto durará? Si es fugaz, explotarlo no tendrá sentido.
- ¿Qué big data necesito aprender? Soy un vendedor digital.
- ¿Podemos obtener automáticamente datos de prueba / entrenamiento para un sistema Machine Learning to Rank (MLR)?
Impulse su experiencia en análisis de Big Data al siguiente nivel con práctica práctica en Apache Spark y obtenga información con análisis mucho más rápido y en tiempo real.
Aquí encontrará el curso más completo diseñado para elevarlo como desarrollador profesional de Apache Spark, analista de Big Data o como científico de datos.
8 módulos con conjunto de datos en vivo
Nuestro currículum de capacitación ampliamente enmarcado permite a los participantes tener una comprensión profunda de lo que es Big Data Analytics, lo que permite debatir los conceptos centrales del procesamiento de flujo y el análisis en memoria utilizando los conjuntos de datos distribuidos resistentes en Spark. El plan de estudios de capacitación también brinda a los participantes una experiencia práctica con Scala y PySpark Shell, Spark Streaming, Spark SQL, Graph Queries con GraphX y Machine Learning con MLLib.
Para mejorar los niveles de competencia de los participantes, este curso también incluye cuestionarios, tareas y les permite tener una práctica práctica con conjuntos de datos en vivo como el conjunto de datos de GE Flights, datos de Twitter, etc.
Objetivos del Curso:
Después de completar con éxito este curso, obtendrá experiencia en los siguientes conceptos:
- Determinar las limitaciones de Hadoop y el papel de Spark para superar estas limitaciones
- Comprender los fundamentos del lenguaje de programación Scala
- Aplicación de estructuras de control, bucles, colección, etc.
- Programación orientada a objetos y funcional de aprendizaje en Scala
- Comprender el papel de los RDD en Spark
- Implementación de las aplicaciones Spark en YARN (Hadoop)
- Uso de las consultas de Spark SQL para realizar varios cálculos
- Transmitiendo los datos usando Spark Streaming API
- Implementación de algoritmos de aprendizaje automático en Spark utilizando MLLib API
- Comprender la API GraphX e implementar algoritmos gráficos
- Ampliando las capacidades de Spark usando PySpark y SparkR
Este curso es ampliamente útil para los aspirantes que tienen la pasión de emerger como un desarrollador profesional de Apache Spark y también para aquellos que actualmente son profesionales de Big Data Analytics, profesionales de investigación, desarrolladores y probadores de TI, científicos de datos, profesionales de BI e informes, desarrolladores de Hadoop y mucho más.
Módulo 1: Big Data y Spark
- Descripción general de Big Data y Spark
- Limitaciones de MapReduce
- Historia de chispa
- Spark Architecture
- Ventajas de Spark y Hadoop
- Beneficios de Spark + Hadoop
- Introducción al ecosistema Spark
- Configuración del entorno de práctica
Módulo 2: Programación Scala
- Fundación Scala
- Características de Scala
- Configurar Spark y Scala en Ubuntu y Windows OS
- Instalar IDE para Scala
- Ejecutar códigos Scala en Scala Shell
- Comprender los tipos de datos en Scala
- Implementando valores vagos
- Estructuras de Control
- Estructuras de bucle
- Las funciones
- Procedimientos
- Colecciones
- Matrices y búferes de matriz
- Mapas, tuplas y listas
Módulo 3: Programación Orientada a Objetos con Scala
- Implementando clases
- Implementando Getter & Setter
- Objeto y campos privados de objeto
- Implementación de clases anidadas
- Usando constructor auxiliar
- Constructor primario
- Objeto acompañante
- Aplicar método
- Paquetes de comprensión
- Métodos de anulación
- Comprobación de tipo
- Fundición
- Clases abstractas
Módulo 4: Programación funcional con Scala
- Comprender la programación funcional en Scala
- Implementando Rasgos
- Rasgos en capas
- Rasgos ricos
- Funciones anónimas
- Funciones de orden superior
- Cierres y Curry
- Realizar procesamiento de archivos
Módulo 5: Fundamentos de chispa
- Spark Shell y PySpark
- Operaciones básicas en Shell
- Proyectos Spark Java
- Contexto de chispa y propiedades de chispa
- Persistencia en chispa
- Datos HDFS de Spark
- Implementación de análisis de registro del servidor usando Spark
Módulo 6: Conjuntos de datos distribuidos resilientes (RDD)
- Entendiendo RDD
- Cargando datos en RDD
- Scala RDD, RDD emparejado, RDD doble y RDD general Funciones
- Implementación de HadoopRDD, RDD filtrado, RDD unido
- Transformaciones, acciones y variables compartidas
- Operaciones de chispa en YARN
- Procesamiento de archivos de secuencia
- Partitioner y su papel en la mejora del rendimiento
Módulo 7: Spark Streaming y Spark SQL
- Introducción a Spark Streaming
- Introducción a Spark SQL
- Consultar archivos como tablas
- Formato de archivo de texto
- Formato de archivo JSON
- Formato de archivo de parquet
- Arquitectura SQL de Hive y Spark
- Integrando Spark y Apache Hive
- Optimización del rendimiento de Spark SQL
- Implementación de visualización de datos en Spark
Módulo 8: GraphX y MLLib
- Fundamentos de la teoría de grafos
- Gráficos de propiedades
- Gráfica de consultas transversales
- Formatos de datos MLLib
- Marcos de datos
- Funciones de la biblioteca MLLib
- Poniendo todas las piezas juntas