Las 2 características más importantes de este conjunto de datos que debe tener en cuenta son:
- Las respuestas a la misma pregunta están estadísticamente relacionadas.
- Las respuestas del mismo alumno están estadísticamente relacionadas.
Entonces, lo primero que debe hacer es etiquetar cada 21 filas con una variable de identificación única (llámela studentId), para que pueda obtener una sección transversal de estudiantes si lo desea (el número de estudiantes debe ser 30k / 21). Luego, puede hacer cosas como ver qué respondieron todos los estudiantes para la pregunta 1, ver qué estudiantes obtuvieron los mejores y los peores (suponiendo que tenga la clave de respuestas), obtener la media de los puntajes de los exámenes, etc. Sería genial si pudiera vincular estos datos con otro conjunto de datos sobre las características de los estudiantes (puntajes de exámenes anteriores, demografía, ese tipo de cosas).
Necesita aprender algunas estadísticas y hacer cosas básicas como tablas de frecuencia y probabilidades condicionales. Esto es solo para poder ver los datos, explorarlos y resumirlos. R no te sirve si no conoces las estadísticas para poder aprovecharlo. Después de eso, depende de lo que intente hacer con los datos.
- ¿Para qué se usa la minería de datos en Facebook y Google?
- ¿Cuál es la diferencia entre un científico de datos y un analista de big data?
- ¿Por qué Udacity se enfoca en Python para el análisis de datos y el aprendizaje automático en lugar de R?
- ¿Cuál es el mejor libro para aprender Python para la ciencia de datos?
- ¿Cuáles son algunos programas de MS asequibles en análisis de negocios, ciencia de datos y big data?