Implemente un iPython Notebook con Juju (Administrador de Juju, Introducción | Documentación | Juju) u otra herramienta de implementación y comience a jugar con ejemplos de Aprendizaje automático de la página en scikit-learn.org u otros.
Trabajar en ello, pero jugar con R Studio también es un hecho.
=> Para que aprendan sobre Data Science. Llévelos a The Home of Data Science para que obtengan los conceptos y una idea sobre lo que se les exigirá de IRL.
Luego, debe enseñarles sobre las arquitecturas Lambda y pedirles que construyan algunas de ellas. Un ejemplo trivial sería Kafka / Hadoop / Storm / Redis / Node.js. Contácteme si necesita ayuda para la implementación.
=> En este punto, se familiarizan con el 90% de las implementaciones que obtendrán en la vida real. Haz +1 en usar sandboxes, o usa Juju nuevamente para desplegarlos. Vea implementaciones fáciles e interesantes en las soluciones de Juju para Big Data
Ahora Spark y Fast Data (VoltDB, Hazelcast) están recibiendo mucho énfasis. Sus alumnos deben estar familiarizados con ellos. Spark es realmente interesante, ya que es uno de los primeros en abrir espacio a algo más que Java para entornos de producción. Fast Data probablemente obtendrá algo de espacio en el lambda como un proceso de serialización o como un reemplazo de las capas de transmisión / publicación.
=> Conocerlos los llevará a la innovación / Próximos pasos en el espacio BD.
- ¿Cuáles son los efectos negativos de los grandes datos?
- ¿Qué tipo de trabajos caen entre un desarrollador web y un científico de datos?
- ¿A qué nivel, o cuánta programación, necesito saber para convertirme en científico de datos?
- ¿Se han desacreditado o confirmado los ciclos de Edward Dewey en el análisis de datos moderno?
- ¿Qué hace que un estadístico sea único?
También deberían hacer algo de aprendizaje automático / aprendizaje profundo. Pueden reutilizar el portátil iPython / R Studio visto anteriormente y / o comenzar a jugar con DeepLearning4J si están más familiarizados con Java.
=> Esos modelos alimentarán la mayoría de las herramientas y pronto serán ejemplos canónicos de Big Data. Definitivamente, al menos deberían entender los conceptos básicos.
Por último, pero no menos importante, dígales que usen herramientas industriales estándar, bien distribuidas y compatibles. Los lenguajes elegidos son Python y Java.
Estamos viendo demasiada energía y tiempo perdido entre la investigación y el consumo de Big Data porque los estudiantes e investigadores usan lenguajes / herramientas específicas. Esto puede mejorarse cuando les enseñe a seguir las pautas estándar. Lo que hacen debe ser utilizable en producción en minutos, no en días.