¿Qué ejercicio debo dar a mis alumnos en un curso de Big Data?

Implemente un iPython Notebook con Juju (Administrador de Juju, Introducción | Documentación | Juju) u otra herramienta de implementación y comience a jugar con ejemplos de Aprendizaje automático de la página en scikit-learn.org u otros.
Trabajar en ello, pero jugar con R Studio también es un hecho.
=> Para que aprendan sobre Data Science. Llévelos a The Home of Data Science para que obtengan los conceptos y una idea sobre lo que se les exigirá de IRL.

Luego, debe enseñarles sobre las arquitecturas Lambda y pedirles que construyan algunas de ellas. Un ejemplo trivial sería Kafka / Hadoop / Storm / Redis / Node.js. Contácteme si necesita ayuda para la implementación.
=> En este punto, se familiarizan con el 90% de las implementaciones que obtendrán en la vida real. Haz +1 en usar sandboxes, o usa Juju nuevamente para desplegarlos. Vea implementaciones fáciles e interesantes en las soluciones de Juju para Big Data

Ahora Spark y Fast Data (VoltDB, Hazelcast) están recibiendo mucho énfasis. Sus alumnos deben estar familiarizados con ellos. Spark es realmente interesante, ya que es uno de los primeros en abrir espacio a algo más que Java para entornos de producción. Fast Data probablemente obtendrá algo de espacio en el lambda como un proceso de serialización o como un reemplazo de las capas de transmisión / publicación.
=> Conocerlos los llevará a la innovación / Próximos pasos en el espacio BD.

También deberían hacer algo de aprendizaje automático / aprendizaje profundo. Pueden reutilizar el portátil iPython / R Studio visto anteriormente y / o comenzar a jugar con DeepLearning4J si están más familiarizados con Java.
=> Esos modelos alimentarán la mayoría de las herramientas y pronto serán ejemplos canónicos de Big Data. Definitivamente, al menos deberían entender los conceptos básicos.

Por último, pero no menos importante, dígales que usen herramientas industriales estándar, bien distribuidas y compatibles. Los lenguajes elegidos son Python y Java.
Estamos viendo demasiada energía y tiempo perdido entre la investigación y el consumo de Big Data porque los estudiantes e investigadores usan lenguajes / herramientas específicas. Esto puede mejorarse cuando les enseñe a seguir las pautas estándar. Lo que hacen debe ser utilizable en producción en minutos, no en días.

Descargue la máquina virtual de sandbox (VM) Hortonworks o Cloudera y comience a trabajar a través de los tutoriales gratuitos. Es gratis y los tutoriales de iniciación les enseñarán habilidades valiosas para ingerir, manipular y consultar datos en Hadoop.

Haga un concurso para crear el programa de conteo de palabras más rápido que puedan escribir. Suena simple al principio, pero pondrá a prueba cada uno de sus conocimientos en sistemas distribuidos. Puede arrojar una complejidad adicional al pedirles que hagan un índice invertido.