Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

  1. Debe obtener una comprensión básica pero breve de todas las tecnologías que existen en este ecosistema y sus casos de uso. ¿Por qué las personas usan Hadoop o Spark cuando hay ElasticSearch? ¿Por qué no debería usarse ElasticSearch como almacén de datos?
  2. Apache Spark se está volviendo más popular que Hadoop desde 2014 como un “motor informático”, pero no puede existir sin el ecosistema Hadoop. ¿Está muerto Hadoop y es hora de mudarse a Spark? Además, Spark almacena datos en caché para algoritmos iterativos y viene con una biblioteca ML distribuida. ¿Por qué Apache Spark es popular entre los científicos de datos? A través de estos, comprenderá la importancia del sistema de archivos distribuido, el almacenamiento en caché de datos para algoritmos iterativos, la informática resistente, etc.
  3. Si desea comprender los aspectos internos más profundos de Spark y obtener experiencia práctica, la Clase Spark organizada por Stanford ICME es la clase en línea “con mucho mejor” organizada por Reza Zadeh [1], Matei Zaharia [2] ( cofundador de Databricks / Spark) y Ion Stoica [3]. Esta clase toca todos los temas esenciales de la informática “distribuida” y los algoritmos de aprendizaje automático.

Notas al pie

[1] Reza Zadeh

[2] Matei Zaharia

[3] Página de inicio de Ion Stoica