Quiero aprender por mi cuenta Big data / Hadoop. ¿Cuál debería ser el enfoque más eficiente?

Debe obtener una comprensión básica pero breve de todas las tecnologías que existen en este ecosistema y sus casos de uso. ¿Por qué las personas usan Hadoop o Spark cuando hay ElasticSearch? ¿Por qué no debería usarse ElasticSearch como almacén de datos?
Apache Spark se está volviendo más popular que Hadoop desde 2014 como un “motor informático”, pero no puede existir sin el ecosistema Hadoop. ¿Está muerto Hadoop y es hora de mudarse a Spark? Además, Spark almacena datos en caché para algoritmos iterativos y viene con una biblioteca ML distribuida. ¿Por qué Apache Spark es popular entre los científicos de datos? A través de estos, comprenderá la importancia del sistema de archivos distribuido, el almacenamiento en caché de datos para algoritmos iterativos, la informática resistente, etc.
Si desea comprender los aspectos internos más profundos de Spark y obtener experiencia práctica, la Clase Spark organizada por Stanford ICME es la clase en línea “con mucho mejor” organizada por Reza Zadeh [1], Matei Zaharia [2] ( cofundador de Databricks / Spark) y Ion Stoica [3]. Esta clase toca todos los temas esenciales de la informática “distribuida” y los algoritmos de aprendizaje automático.

Notas al pie

[1] Reza Zadeh

[2] Matei Zaharia

[3] Página de inicio de Ion Stoica

Análisis deApache HadoopBig DataCiencia de datosdatosPregunta personal

Related Content

Cómo convertirse en ingeniero de aprendizaje automático

¿Cuáles son las fortalezas / debilidades de los diferentes algoritmos de aprendizaje automático?

¿Qué es todo lo que hay que aprender sobre el análisis de big data?

¿Qué son los datos en bruto en las estadísticas?

Soy un estudiante de informática interesado en ciencia de datos. ¿A qué reuniones o conferencias (en India) debo asistir para crecer en el campo?

¿Cuál es la mejor manera de aprender analítica de personas?

¿Cuáles son las principales empresas que trabajan en Deep Reinforcement Learning aparte de DeepMind y OpenAI?

More Interesting

¿Qué paquete R es el más utilizado por los científicos de datos para la visualización de datos?

¿Por qué la gente está tan loca por Hadoop?

¿Cuáles son los procesos de análisis de datos?

¿Hay algún lugar en Gurgaon donde pueda enseñar Data Science gratis?

Recuperación de información: ¿Cuáles son algunas de las API más importantes que todo científico de datos debe conocer?

¿Qué compañía está haciendo el mejor producto de prevención de pérdida de datos en 2015?

¿Qué debe estudiar una persona de aprendizaje automático: visión artificial o ciencia de datos?

¿El plan de estudios de Hack Reactor cubre alguna ciencia de datos?

¿El uso de Big Data no pudo predecir las elecciones de 2016?

Quiero ser un científico de datos. ¿Cómo entreno mi sensibilidad de datos?

Entre la maestría en análisis predictivo en Northwestern y la maestría en análisis de datos en la Universidad de Chicago, ¿cuál es mejor?

¿Cuáles son las diferencias entre las carreras universitarias de ingeniería industrial, investigación de operaciones, ciencias de gestión y ciencias de datos?

¿Cuál es el camino de aprendizaje de big data?

¿Cuál es el mejor curso en línea gratuito para ciencia de datos / aprendizaje automático como principiante?

¿Qué tan comunes son los métodos bayesianos en la industria?

Web Analytics