Cómo detectar patrones de respuesta de opción múltiple en R

Las 2 características más importantes de este conjunto de datos que debe tener en cuenta son:

  1. Las respuestas a la misma pregunta están estadísticamente relacionadas.
  2. Las respuestas del mismo alumno están estadísticamente relacionadas.

Entonces, lo primero que debe hacer es etiquetar cada 21 filas con una variable de identificación única (llámela studentId), para que pueda obtener una sección transversal de estudiantes si lo desea (el número de estudiantes debe ser 30k / 21). Luego, puede hacer cosas como ver qué respondieron todos los estudiantes para la pregunta 1, ver qué estudiantes obtuvieron los mejores y los peores (suponiendo que tenga la clave de respuestas), obtener la media de los puntajes de los exámenes, etc. Sería genial si pudiera vincular estos datos con otro conjunto de datos sobre las características de los estudiantes (puntajes de exámenes anteriores, demografía, ese tipo de cosas).

Necesita aprender algunas estadísticas y hacer cosas básicas como tablas de frecuencia y probabilidades condicionales. Esto es solo para poder ver los datos, explorarlos y resumirlos. R no te sirve si no conoces las estadísticas para poder aprovecharlo. Después de eso, depende de lo que intente hacer con los datos.

¿30K es bastante pequeño y solo 4 columnas? Simplemente ejecute tablas cruzadas para las combinaciones variables. Honestamente, usaría la tabla dinámica de Excel y terminaría en 20 minutos.

Editar: si sus preguntas están en filas, no en columnas, lo que no es convencional, la forma más fácil es cruzar las preguntas de tabulación en columnas primero.

More Interesting

Cómo avanzar mi habilidad R al siguiente nivel

¿Qué carreras significativas existen en la ciencia de datos (estadísticas / ML / optimización)?

¿Qué piensan los profesionales de analistas de negocios sobre el término 'ciencia de datos'?

¿Qué tan relevante es el análisis de Big Data para la economía global actual?

Cómo resolver errores de E / S de Linux sin reiniciar

¿Qué campos de las matemáticas son más esenciales para la ciencia de datos?

¿Es valioso un Máster en Ciencia de Datos después de un MBA para una carrera en análisis de negocios?

¿Vale la pena hacer big data o no?

¿Cómo funciona el análisis espacial con datos topológicos?

Si mi interés principal son las series temporales, ¿debería enfocar mi energía en aprender Python o R?

¿De qué manera la minería de datos es valiosa para las pequeñas empresas?

¿Cuáles son los mejores 3 institutos de capacitación en el aula para un curso de ciencia de datos con certificación en Hyderabad?

Suponiendo que tiene habilidades de programación decentes (C ++, Java, C #) pero no es muy bueno con las estadísticas, ¿a qué cursos en línea (Coursera, etc.) debe un programador unirse para convertirse en un científico de datos?

¿Hay alguna similitud entre el desarrollo front-end y la ciencia de datos?

Mientras se construye un modelo de datos predictivos, ¿el tratamiento para valores perdidos y valores atípicos debe realizarse tanto en los conjuntos de datos de entrenamiento como de prueba?