¿Qué clases debo tomar en CMU si quiero ser un científico de datos?

  • 21-341 Álgebra lineal, 21-259 Cálculo en 3D, 21-325 Probabilidad y algunas clases de estadísticas son fundamentales. Creo que 36-325 / 326 son las clases de estadísticas fundamentales más rigurosas. 36-225 / 226 son demasiado fáciles de pasar sin aprender mucho, y puede que no te preparen adecuadamente para lo que vendrá después.
  • 10-701 Aprendizaje automático. Esta es la clase de ML para estudiantes de doctorado CS. 601 es el de los estudiantes de maestría. Eso viene con sus altibajos. 701 está menos estructurado y tiende a variar más, pero al final obtienes inmersiones teóricas y un proyecto no estructurado. Si te gusta esto y quieres profundizar en la teoría, puedes tomar 10-702 Estadística de aprendizaje automático. Editar: 10-715 ahora es la clase equivalente, ver comentario.
  • 10-605 Aprendizaje automático con grandes conjuntos de datos. Esta es una gran clase. Solo participé en él y desearía tener tiempo para terminarlo. Toma el inteligente e idealista teórico ML person 701 que te hace y te lanza al mundo desordenado del procesamiento de grandes conjuntos de datos con máquinas y software reales en lugar de fórmulas y pizarras.
  • 15-440 Sistemas distribuidos. La clase tiene una mala reputación por ser “la clase de sistemas más fácil que el sistema operativo”, pero es muy aplicable a la industria. Aprenderá cómo las computadoras trabajan juntas para procesar grandes conjuntos de datos, comenzando con protocolos como UDP y TCP, subiendo la pila a interfaces de paso de mensajes y, en última instancia, abstracciones de nivel superior como Hadoop / Spark.
  • 11-344 Aprendizaje automático en la práctica. Esta clase tiene mala reputación por ser demasiado fácil y no muy teórica. Implica usar Weka mucho para entrenar y probar diferentes modelos. Desearía que se fuera de Weka, pero resulta que esta clase es bastante representativa de lo que hacen muchos científicos de datos en la práctica: mezcla de datos, ingeniería de características, pruebas usando herramientas y plataformas existentes en lugar de implementar un descenso de gradiente estocástico un montón de veces.
  • 10-802 Social Media Analysis es una clase que quería tomar pero que no estaba disponible en ese momento. Es una clase matemáticamente rigurosa de análisis de redes sociales. ¡Y William Cohen, quien también enseña 10-605 es un gran maestro!
  • Mapping & Diagramming with Karen Moyer es una clase de diseño de la que he oído grandes cosas cuando se trata de visualización de datos.

Probablemente hay nuevos cursos que no conozco y otros cursos en el departamento de CS. ML estaba realmente despegando en el departamento de CS en 2011/12 más o menos cuando me iba, y ahora también tienen un Machine Learning Minor.

Esta es una visión general, alguien en MLD o LTI probablemente pueda responder mejor sobre clases muy específicas.

Aquí hay uno que Abhinav Sharma no mencionó:

36-315: Gráficos estadísticos y visualizaciones
Solo lo tomé durante una semana, pero usas R y haces gráficos y visualizaciones.

Tomé Mapping & Diagramming, así que ampliaré un poco más ese tema. Karen comienza la clase con un proyecto de diseño de información básica, que tiene una premisa bastante estrecha. El próximo proyecto, se le pide que recopile datos sobre usted y luego cree una visualización a partir de él. Por último, el proyecto final es completamente abierto. Karen pasa la clase mostrando ejemplos clásicos de diseño de información, así como criticando el trabajo en progreso. Ella definitivamente le proporcionará comentarios sobre las preocupaciones de diseño tradicionales como la tipografía, el color y el diseño.

More Interesting

¿En qué se parecen y se diferencian los problemas establecidos en CS 109 al trabajo como científico de datos real?

En términos simples, ¿qué son exactamente Apache y Hadoop, y qué importancia tienen para los grandes datos y la ciencia de datos?

¿Cuáles son las fortalezas y debilidades de la plataforma HAVEn de HP para el análisis de big data?

¿Cuáles son algunos de los procedimientos / metodologías estadísticas comúnmente utilizados en las pruebas A / B?

¿Dónde encuentras datos? Entonces, ¿cómo lo usas?

¿Qué tecnologías hay en Big Data?

¿Cómo se aplica el big data al marketing de películas?

¿Cuáles son las buenas universidades / colegios para MS en análisis / análisis de negocios / análisis de datos / ciencia en los Estados Unidos?

¿Por qué se usa el análisis de datos?

¿Qué es exactamente la minería de datos y cómo la aprendo?

¿Cómo utilizarán las empresas big data en 2025?

¿Cuál es el plan de estudios típico para un programa de pregrado en ciencia de datos?

Si quiero hacer una transición profesional de un contador fiscal a un científico de datos, ¿recomendaría uno de los campamentos de ciencia de datos o una maestría en ciencias de datos? ¿Por qué?

¿Cómo hizo el experto en aprendizaje automático Michael Jordan, de UC Berkeley, la transición de una licenciatura en psicología a las matemáticas y la informática, y qué motivó estas transiciones?

¿Cuál es la proporción de creatividad vs trabajo de rutina en ciencia de datos?