Estadística:
- Distribuciones comunes (normal, beta, binomial, multinomial)
- prueba t (pares emparejados y no emparejados)
- Ajuste del modelo (modelos lineales, conceptos básicos de regularización y sobreajuste, validación cruzada en K, etc.)
Aprendizaje automático:
- Árboles de decisión / bosque aleatorio (si estuviera varado en una isla desierta con un solo algoritmo de aprendizaje automático, ¡sería un bosque aleatorio!)
- K-medias y / o agrupación de dosel
- SVM o regresión logística
Programación web:
- ¿Qué algoritmos se utilizan para resolver problemas de aprendizaje automático basados en gráficos?
- ¿Cuál es el mejor instituto de capacitación en Pune para ciencia de datos y cursos de big data?
- ¿Se considera que R no es adecuado para Big Data en comparación con Python?
- ¿Cómo se relaciona la distribución binomial negativa con la predicción del comportamiento del consumidor?
- ¿Cómo puede un equipo de finanzas crear un flujo de trabajo de pronóstico utilizando herramientas de ciencia de datos de código abierto?
- Rieles básicos o django quizás
- Protovis?
Manipulación y análisis de conjuntos de datos:
- R básico para conjuntos de datos pequeños (ggplot2, e1071, y funciones estadísticas básicas, esto podría integrarse en todo lo anterior para las asignaciones)
- Pig / Hive para grandes conjuntos de datos
- Puede ser asesinado por esta sugerencia, pero: ¿Perl por munging de datos? sed / awk? python-lxml para tontos? Los conjuntos de datos nunca están en el formato que los necesita, siempre he tenido al menos un poco de texto como parte de cualquier análisis