Cómo mostrar que dos conjuntos de datos tienen distribuciones diferentes

Comencemos por el hecho fácil de identificar de que SIEMPRE hay alguna diferencia entre dos (diferentes) conjuntos de datos. En estadística, la pregunta es si la diferencia es significativa .

Podemos abordar la exploración estadística formal de esta pregunta mediante un par de pasos:

a) Asegúrese de reconocer el tipo de datos. Los diferentes tipos de datos pueden ser datos categoriales, datos ordenados, datos dicotómicos o simplemente datos “normales”.

b) A continuación: aclarar aquellas propiedades que constituirían características de distribución. Clásicamente, quisiéramos algún tipo de indicador de lo que constituye el valor “medio” o “típico” (p. Ej., Promedio), pero también estamos interesados ​​en la distribución / varianza alrededor del medio (que es el núcleo de su pregunta) e incluso cualquier asimetría, que potencialmente caracteriza esta distribución.

c) Ahora estamos listos para elegir una herramienta relevante. Me gustan las pruebas estadísticas formales porque son una forma de operacionalizar las consecuencias de nuestras respuestas a a) yb). Con las herramientas estadísticas podemos probar una hipótesis de esta naturaleza:

H0: No hay diferencia en las distribuciones de los dos conjuntos de datos.

H1: Aparentemente, desde que cayó HO, puede haber una diferencia significativa en la distribución.

La elección de la herramienta depende del tipo de datos, como se describió anteriormente, y de lo que se puede suponer con respecto a la distribución de los datos. La elección principal es entre pruebas paramétricas y no paramétricas. Las pruebas paramétricas son preferibles cuando:

  1. se puede suponer que los datos se distribuyen normalmente
  2. los datos son del tipo relación / intervalo

La siguiente opción es entre emparejado o no emparejado. Si los datos están emparejados, su herramienta está emparejada Student-t. Si no están emparejados, su herramienta es Student-t no emparejado.

En caso de que sus datos no estén distribuidos normalmente (¡y puede probar esto!) O son, por ejemplo, del tipo ordinal / chategorial (por ejemplo, “muy bueno = 1, bueno = 2, no tan bueno = 3, muy malo = 4) , debe ir no paramétrico.

Nuevamente, debe distinguir entre datos emparejados y no emparejados y sus opciones son:

Prueba de Mann-Whitney (sin emparejar)

Prueba de Wilcoxon (emparejado).

Si desea más opciones, también puede consultar la prueba de Chi-cuadrado (χ2) y el análisis de varianza.

Distribución t de Student – Wikipedia

Estadísticas no paramétricas – Wikipedia

Grafique cada muestra como un gráfico de densidad marginal en el mismo gráfico. En R puede hacer esto usando las funciones de densidad y trazado.

Lo bueno de este enfoque es que comparar gráficos de densidad marginal proporciona la comparación visualmente más intuitiva de dos distribuciones. La mayoría de las medidas de diferencia de distribución (KS, Gini, etc.) tienden a ser función de los dos gráficos de densidad acumulativa, pero para visualizar las diferencias, las comparaciones de densidad marginal son más intuitivas.

En mi campo, usamos lo que llamamos un índice de estabilidad de la población, que es efectivamente la estadística de divergencia de Kullback. Que yo sepa, no hay pruebas de confianza asociadas con él. Utilizamos un enfoque de semáforo, donde cualquier valor inferior a 0,10 es verde, los valores hasta 0,25 son amarillos y cualquier valor superior a 0,25 es rojo. Si desea niveles de confianza, entonces otros enfoques serían más apropiados.

Muestre un histograma normalizado para cada distribución y use el mismo número de contenedores, luego compárelos visualmente uno al lado del otro. Si desea una medida de distancia (no simétrica), intente con DKL. Wikipedia tiene un buen artículo sobre eso. O podría usar la distancia Hellenger (entre otros).

¿Supongo que te refieres a distribuciones de frecuencia de algún tipo? Si está utilizando Excel, puede usar histogramas. avíseme si necesita ayuda para hacerlo y copiaré las instrucciones.

Gráficamente, creo que la mejor manera es con un gráfico cuantil cuantil.

Si necesita algún tipo de respuesta numérica, con (jadeo) un valor p o algo, entonces lo pisaría con mucho cuidado. Las medidas son todas problemáticas. Si esto es crítico de alguna manera, iría con una prueba de permutación. Pero dudo seriamente que el valor ap sea lo que realmente necesita.

More Interesting

¿Cómo uso el aprendizaje automático para datos espaciales?

Estoy interesado en la ciencia de datos. Pero no tengo conocimiento sobre Linux, SQL o ningún lenguaje de programación. ¿Puedo seguir persiguiendo esto?

Si puedo tomar Introducción al aprendizaje automático o un segundo curso de Estadísticas, pero no ambos, ¿cuál es mejor para la ciencia de datos?

¿Cuáles son los mejores programas de maestría en ciencias de datos en la India?

Hay varios cursos disponibles sobre ciencia de datos y análisis como Udaicity, Upgrad Imarticus, etc. ¿Cuál es el mejor para unirse?

¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

¿Cómo es trabajar en un equipo de ciencia de datos de detección de fraude?

¿Cuáles son algunos consejos para escribir un buen currículum para un nuevo trabajo de posgrado en ciencias de datos?

¿En qué casos no podemos aplicar el análisis de datos (ordinarios) y tenemos que usar el análisis de datos topológicos? ¿Podrías dar un ejemplo concreto? ¡Gracias!

¿Cuáles son las desventajas de las notebooks iPython para el análisis de datos? ¿Hay algún trabajo de investigación disponible que hable sobre la rigidez y la linealidad del portátil?

¿Qué tan bueno es un nanogrado de Udacity en ciencia de datos para un estudiante graduado?

¿En qué medida los roles de Data Science requieren familiaridad con Machine Learning?

¿Cuál es la diferencia entre el análisis de datos con Python y el análisis de datos con Python en Apache Spark?

¿Cuál es la satisfacción laboral de los científicos de datos? ¿Para qué tipo de empresas ha trabajado o trabaja para ahora de alguna manera, y ahora es un científico de datos? ¿Qué responsabilidades e impacto ha influido en la empresa?

¿Cómo funciona el análisis espacial con datos topológicos?