- Debe obtener una comprensión básica pero breve de todas las tecnologías que existen en este ecosistema y sus casos de uso. ¿Por qué las personas usan Hadoop o Spark cuando hay ElasticSearch? ¿Por qué no debería usarse ElasticSearch como almacén de datos?
- Apache Spark se está volviendo más popular que Hadoop desde 2014 como un “motor informático”, pero no puede existir sin el ecosistema Hadoop. ¿Está muerto Hadoop y es hora de mudarse a Spark? Además, Spark almacena datos en caché para algoritmos iterativos y viene con una biblioteca ML distribuida. ¿Por qué Apache Spark es popular entre los científicos de datos? A través de estos, comprenderá la importancia del sistema de archivos distribuido, el almacenamiento en caché de datos para algoritmos iterativos, la informática resistente, etc.
- Si desea comprender los aspectos internos más profundos de Spark y obtener experiencia práctica, la Clase Spark organizada por Stanford ICME es la clase en línea “con mucho mejor” organizada por Reza Zadeh [1], Matei Zaharia [2] ( cofundador de Databricks / Spark) y Ion Stoica [3]. Esta clase toca todos los temas esenciales de la informática “distribuida” y los algoritmos de aprendizaje automático.
Notas al pie
[1] Reza Zadeh
[2] Matei Zaharia
- ¿Cuáles son las startups que son realmente buenas en big data y análisis en Mumbai?
- Cómo convertir datos categóricos a datos continuos
- ¿Cuál es el tema de ciencia de datos Preguntas frecuentes?
- ¿Esperamos que se creen más trabajos en las pruebas de Big Data dados los enormes requisitos para los roles de desarrollador de Big Data?
- ¿Cuáles son los mitos del big data que afectan a las PYME?
[3] Página de inicio de Ion Stoica