Comencemos por el hecho fácil de identificar de que SIEMPRE hay alguna diferencia entre dos (diferentes) conjuntos de datos. En estadística, la pregunta es si la diferencia es significativa .
Podemos abordar la exploración estadística formal de esta pregunta mediante un par de pasos:
a) Asegúrese de reconocer el tipo de datos. Los diferentes tipos de datos pueden ser datos categoriales, datos ordenados, datos dicotómicos o simplemente datos “normales”.
- ¿Habrá escasez de especialistas en aprendizaje automático?
- ¿Cómo mejorar mis habilidades de depuración en el aprendizaje automático? A menudo me resulta difícil entender por qué un modelo se comporta de cierta manera. ¿Cómo depuran rápidamente los grandes científicos de datos?
- ¿Qué porcentaje de una muestra proporciona suficiente análisis de datos?
- ¿Con qué herramientas o tecnologías debería estar familiarizado para conseguir un trabajo en el análisis de datos?
- Tengo más de 4 años de experiencia en el desarrollo de .net, pero ahora quiero cambiar a Big Data. ¿Dónde puedo aprender big data y obtener trabajo?
b) A continuación: aclarar aquellas propiedades que constituirían características de distribución. Clásicamente, quisiéramos algún tipo de indicador de lo que constituye el valor “medio” o “típico” (p. Ej., Promedio), pero también estamos interesados en la distribución / varianza alrededor del medio (que es el núcleo de su pregunta) e incluso cualquier asimetría, que potencialmente caracteriza esta distribución.
c) Ahora estamos listos para elegir una herramienta relevante. Me gustan las pruebas estadísticas formales porque son una forma de operacionalizar las consecuencias de nuestras respuestas a a) yb). Con las herramientas estadísticas podemos probar una hipótesis de esta naturaleza:
H0: No hay diferencia en las distribuciones de los dos conjuntos de datos.
H1: Aparentemente, desde que cayó HO, puede haber una diferencia significativa en la distribución.
La elección de la herramienta depende del tipo de datos, como se describió anteriormente, y de lo que se puede suponer con respecto a la distribución de los datos. La elección principal es entre pruebas paramétricas y no paramétricas. Las pruebas paramétricas son preferibles cuando:
- se puede suponer que los datos se distribuyen normalmente
- los datos son del tipo relación / intervalo
La siguiente opción es entre emparejado o no emparejado. Si los datos están emparejados, su herramienta está emparejada Student-t. Si no están emparejados, su herramienta es Student-t no emparejado.
En caso de que sus datos no estén distribuidos normalmente (¡y puede probar esto!) O son, por ejemplo, del tipo ordinal / chategorial (por ejemplo, “muy bueno = 1, bueno = 2, no tan bueno = 3, muy malo = 4) , debe ir no paramétrico.
Nuevamente, debe distinguir entre datos emparejados y no emparejados y sus opciones son:
Prueba de Mann-Whitney (sin emparejar)
Prueba de Wilcoxon (emparejado).
Si desea más opciones, también puede consultar la prueba de Chi-cuadrado (χ2) y el análisis de varianza.
Distribución t de Student – Wikipedia
Estadísticas no paramétricas – Wikipedia