¿Qué material debería tratar de cubrir el curso “Introducción a la ciencia de datos” de primavera de 2011 en Berkeley?

Estadística:

Distribuciones comunes (normal, beta, binomial, multinomial)
prueba t (pares emparejados y no emparejados)
Ajuste del modelo (modelos lineales, conceptos básicos de regularización y sobreajuste, validación cruzada en K, etc.)

Aprendizaje automático:

Árboles de decisión / bosque aleatorio (si estuviera varado en una isla desierta con un solo algoritmo de aprendizaje automático, ¡sería un bosque aleatorio!)
K-medias y / o agrupación de dosel
SVM o regresión logística

Programación web:

Rieles básicos o django quizás
Protovis?

Manipulación y análisis de conjuntos de datos:

R básico para conjuntos de datos pequeños (ggplot2, e1071, y funciones estadísticas básicas, esto podría integrarse en todo lo anterior para las asignaciones)
Pig / Hive para grandes conjuntos de datos
Puede ser asesinado por esta sugerencia, pero: ¿Perl por munging de datos? sed / awk? python-lxml para tontos? Los conjuntos de datos nunca están en el formato que los necesita, siempre he tenido al menos un poco de texto como parte de cualquier análisis

de ciencia de datos

¿Cómo se negocian los datos?

¿Cuáles son los mejores recursos gratuitos para nuevos desarrollos en aprendizaje automático y ciencia de datos?

¿Qué se requieren todos los lenguajes de programación para la ciencia de datos?

¿Cuál es la diferencia entre análisis de datos y análisis de datos? ¿Cómo se refleja esta diferencia en los procedimientos de gestión de datos de una empresa?

Para alguien que esté interesado en la “Ciencia de datos”, ¿sería más útil una clase sobre combinatoria o procesos estocásticos?

¿Qué es la gobernanza de datos?

La lista de Todd tiene buenos elementos. Algunas sugerencias más:

Agregue: Programación funcional (Clojure) [http://bit.ly/c7716y] – los agregados como Mapreduce son muy importantes – a nivel de lenguaje, a nivel de base de datos y como sistemas independientes (como Hadoop)
Deje la programación web fuera, ya que diluirá el enfoque
R es esencial
Mecanismos de transformación de datos.
Operaciones matriciales
Explicar la diferencia entre inferencia estadística e inferencias algorítmicas (MLl)
También la diferencia entre análisis en tiempo real y análisis por lotes
Ejercicios atractivos: una búsqueda similar a CSI para inferencias que los estudiantes pueden descubrir aplicando una combinación de análisis de datos. Puede ser un proyecto grupal con presentaciones de los métodos e inferencias.
Un ejemplo de bioinformática sería interesante
Conferencias de invitados: problemas, algoritmos explorados, qué funcionó y qué no funcionó
Cubra tantos dominios diferentes como sea posible; Creo que la polinización cruzada de Data Analytics en las diversas industrias es esencial, por ejemplo, lo que funcionó en Bioinformática podría ser útil para el análisis de redes de conocimiento, solo como un ejemplo: un Needleman-Wunsch o un Smith-Waternam sobre un conjunto de gráfico social de una organización ( transformado, por supuesto) no está fuera del reino.

Saludos y buena suerte

Evan Sparks

Tal vez podría aclarar lo que quiere decir con “programación web”; no estoy seguro de entender qué ayuda Django sería en una clase de “Ciencia de datos”. Lo que sería interesante es un javascript para recopilar estadísticas en una aplicación web.

Más que solo R básico: creo que debería ser un enfoque. A menos que esté haciendo ciencia de datos de “escala web”, R es más que poderoso para la mayoría de las aplicaciones. Los lenguajes básicos de base de datos (SQL) probablemente también deberían estar cubiertos. Y no olvides los cubos OLAP. El análisis de datos multidimensionales es algo poderoso, incluso si es difícil de administrar a escala. Hadoop, etc. podría introducirse para completar este conjunto de herramientas.

En cuanto a la limpieza / limpieza de datos, python, sed / awk / grep. Google refine también ha sido bueno para mí recientemente.

La visualización de datos puede ser muy poderosa en ciertos dominios: spotfire, tableau, ggplot2, GGobi podría estar cubierto.

Los datos de series temporales son diferentes a los datos de sección transversal. GARCH, causalidad de Granger, autorregresión, etc.

Luego, por supuesto, están las matemáticas: álgebra lineal, probabilidad, combinatoria.

Evan Sparks

More Interesting

Si necesito aprender ciencia de datos, ¿qué puedo aprender en el primer paso o de la A a la Z?

¿Cómo es Berkeley para la ciencia de datos?

¿Cuándo los vecinos más cercanos clasificador \ regresión fallarían miserablemente?

¿Cuál es la diferencia entre minería de datos, ciencia de datos y bigdata?

¿Cuántos estudiantes han completado la especialización en ciencia de datos de Coursera hasta la fecha?

Cómo comenzar a participar y prepararse en hackatones para la ciencia de datos