¿Qué material debería tratar de cubrir el curso “Introducción a la ciencia de datos” de primavera de 2011 en Berkeley?

Estadística:

  • Distribuciones comunes (normal, beta, binomial, multinomial)
  • prueba t (pares emparejados y no emparejados)
  • Ajuste del modelo (modelos lineales, conceptos básicos de regularización y sobreajuste, validación cruzada en K, etc.)

Aprendizaje automático:

  • Árboles de decisión / bosque aleatorio (si estuviera varado en una isla desierta con un solo algoritmo de aprendizaje automático, ¡sería un bosque aleatorio!)
  • K-medias y / o agrupación de dosel
  • SVM o regresión logística

Programación web:

  • Rieles básicos o django quizás
  • Protovis?

Manipulación y análisis de conjuntos de datos:

  • R básico para conjuntos de datos pequeños (ggplot2, e1071, y funciones estadísticas básicas, esto podría integrarse en todo lo anterior para las asignaciones)
  • Pig / Hive para grandes conjuntos de datos
  • Puede ser asesinado por esta sugerencia, pero: ¿Perl por munging de datos? sed / awk? python-lxml para tontos? Los conjuntos de datos nunca están en el formato que los necesita, siempre he tenido al menos un poco de texto como parte de cualquier análisis

La lista de Todd tiene buenos elementos. Algunas sugerencias más:

  1. Agregue: Programación funcional (Clojure) [http://bit.ly/c7716y] – los agregados como Mapreduce son muy importantes – a nivel de lenguaje, a nivel de base de datos y como sistemas independientes (como Hadoop)
  2. Deje la programación web fuera, ya que diluirá el enfoque
  3. R es esencial
  4. Mecanismos de transformación de datos.
  5. Operaciones matriciales
  6. Explicar la diferencia entre inferencia estadística e inferencias algorítmicas (MLl)
  7. También la diferencia entre análisis en tiempo real y análisis por lotes
  8. Ejercicios atractivos: una búsqueda similar a CSI para inferencias que los estudiantes pueden descubrir aplicando una combinación de análisis de datos. Puede ser un proyecto grupal con presentaciones de los métodos e inferencias.
  9. Un ejemplo de bioinformática sería interesante
  10. Conferencias de invitados: problemas, algoritmos explorados, qué funcionó y qué no funcionó
  11. Cubra tantos dominios diferentes como sea posible; Creo que la polinización cruzada de Data Analytics en las diversas industrias es esencial, por ejemplo, lo que funcionó en Bioinformática podría ser útil para el análisis de redes de conocimiento, solo como un ejemplo: un Needleman-Wunsch o un Smith-Waternam sobre un conjunto de gráfico social de una organización ( transformado, por supuesto) no está fuera del reino.

Saludos y buena suerte

Tal vez podría aclarar lo que quiere decir con “programación web”; no estoy seguro de entender qué ayuda Django sería en una clase de “Ciencia de datos”. Lo que sería interesante es un javascript para recopilar estadísticas en una aplicación web.

Más que solo R básico: creo que debería ser un enfoque. A menos que esté haciendo ciencia de datos de “escala web”, R es más que poderoso para la mayoría de las aplicaciones. Los lenguajes básicos de base de datos (SQL) probablemente también deberían estar cubiertos. Y no olvides los cubos OLAP. El análisis de datos multidimensionales es algo poderoso, incluso si es difícil de administrar a escala. Hadoop, etc. podría introducirse para completar este conjunto de herramientas.

En cuanto a la limpieza / limpieza de datos, python, sed / awk / grep. Google refine también ha sido bueno para mí recientemente.

La visualización de datos puede ser muy poderosa en ciertos dominios: spotfire, tableau, ggplot2, GGobi podría estar cubierto.

Los datos de series temporales son diferentes a los datos de sección transversal. GARCH, causalidad de Granger, autorregresión, etc.

Luego, por supuesto, están las matemáticas: álgebra lineal, probabilidad, combinatoria.