Cómo mostrar que dos conjuntos de datos tienen distribuciones diferentes

Comencemos por el hecho fácil de identificar de que SIEMPRE hay alguna diferencia entre dos (diferentes) conjuntos de datos. En estadística, la pregunta es si la diferencia es significativa .

Podemos abordar la exploración estadística formal de esta pregunta mediante un par de pasos:

a) Asegúrese de reconocer el tipo de datos. Los diferentes tipos de datos pueden ser datos categoriales, datos ordenados, datos dicotómicos o simplemente datos “normales”.

b) A continuación: aclarar aquellas propiedades que constituirían características de distribución. Clásicamente, quisiéramos algún tipo de indicador de lo que constituye el valor “medio” o “típico” (p. Ej., Promedio), pero también estamos interesados en la distribución / varianza alrededor del medio (que es el núcleo de su pregunta) e incluso cualquier asimetría, que potencialmente caracteriza esta distribución.

c) Ahora estamos listos para elegir una herramienta relevante. Me gustan las pruebas estadísticas formales porque son una forma de operacionalizar las consecuencias de nuestras respuestas a a) yb). Con las herramientas estadísticas podemos probar una hipótesis de esta naturaleza:

H0: No hay diferencia en las distribuciones de los dos conjuntos de datos.

H1: Aparentemente, desde que cayó HO, puede haber una diferencia significativa en la distribución.

La elección de la herramienta depende del tipo de datos, como se describió anteriormente, y de lo que se puede suponer con respecto a la distribución de los datos. La elección principal es entre pruebas paramétricas y no paramétricas. Las pruebas paramétricas son preferibles cuando:

se puede suponer que los datos se distribuyen normalmente
los datos son del tipo relación / intervalo

La siguiente opción es entre emparejado o no emparejado. Si los datos están emparejados, su herramienta está emparejada Student-t. Si no están emparejados, su herramienta es Student-t no emparejado.

En caso de que sus datos no estén distribuidos normalmente (¡y puede probar esto!) O son, por ejemplo, del tipo ordinal / chategorial (por ejemplo, “muy bueno = 1, bueno = 2, no tan bueno = 3, muy malo = 4) , debe ir no paramétrico.

Nuevamente, debe distinguir entre datos emparejados y no emparejados y sus opciones son:

Prueba de Mann-Whitney (sin emparejar)

Prueba de Wilcoxon (emparejado).

Si desea más opciones, también puede consultar la prueba de Chi-cuadrado (χ2) y el análisis de varianza.

Distribución t de Student – Wikipedia

Estadísticas no paramétricas – Wikipedia

Análisis deBig DataCiencia de datosConjuntos de datosdatosestadísticasMinería de