¿Cómo compararía el aprendizaje de la ciencia de datos de cursos pagos como Cloudera y cursos gratuitos como Udacity y Coursera?

Cloudera tiene varias certificaciones diferentes, limitaré mi respuesta a la Certificación de ciencia de datos (dada la etiqueta del tema para la pregunta). La certificación DS implica que los aspirantes tengan una buena base en el Aprendizaje automático / Estadística / Minería de datos junto con una capacidad razonable para desarrollar e implementar implementaciones de Big Data de los algoritmos de Aprendizaje automático utilizando herramientas dentro del zoológico Hadoop. Cualquier curso de Cloudera no cubrirá toda la gama y debe considerarse más como una introducción a los temas que como una exposición exhaustiva (lo cual es razonable teniendo en cuenta que la mayoría de sus entrenamientos no duran más de 5 días). En conjunto, la capacitación de Cloudera como el único medio para su certificación no es realista. Deberá invertir una buena cantidad de tiempo aprendiendo tanto la teoría del aprendizaje automático como las habilidades de programación necesarias para desarrollar implementaciones útiles de diferentes algoritmos.

Ahora que vengo a los cursos gratuitos sobre Udacity y Coursera (o cualquier otro MOOC), no he visto ningún curso relevante para la pila de Hadoop, a lo sumo hay algunos cursos de nivel introductorio que apenas arañan la superficie. Pero hay algunos cursos MOOC muy buenos para manejar el aprendizaje automático. Por lo tanto, los cursos MOOC como el único medio para la certificación Cloudera tampoco es realista.

Lo que personalmente recomiendo sería tomar los cursos MOOC para ponerse al día con la cantidad de teoría de Machine Learning apropiada para la industria, los antecedentes y los roles que aspira. Si $ 2K es asequible, comience en el lado de la programación de Big Data con una capacitación de Cloudera y continúe con algunos proyectos del mundo real para reunir todo lo que habría aprendido. La última parte de invertir tiempo en trabajar en un mundo real, el problema de datos reales es un aspecto muy distintivo, especialmente durante una búsqueda de empleo.

(Mi perspectiva como científico de datos en el área de la bahía).

CourseraData ScienceUdacity