¿Qué prueba estadística usar para cuantificar la similitud entre dos distribuciones cuando no son normales?

Me alegra que hayas preguntado esto, porque no importa quién seas: tus datos del mundo real casi nunca se muestrean a partir de una distribución normal.


Si tiene muchos datos, la prueba t realmente funcionará porque sus suposiciones de normalidad se vuelven irrelevantes. El teorema del límite central y el teorema de Slutsky comienzan con su estadística de prueba [1], [2]:
[matemáticas] \ frac {\ bar {X} _1 – \ bar {X} _2} {\ sqrt {s_1 ^ 2 + s_2 ^ 2}} [/ matemáticas]
Sin embargo, mi favorito personal es la prueba de permutación . Todo lo que realmente necesita saber al respecto es que:

  1. No hace suposiciones de distribución.
  2. Es una prueba exacta. Es decir, el valor p es exacto para todos los tamaños de muestra (la prueba de Wald, por ejemplo, es una prueba asintótica, por lo que mejora la precisión para muestras de gran tamaño).
  3. Es computacionalmente intensivo, por lo que en la práctica es aproximado, deshaciendo el punto 2. Esto hace que ya no sea exacto. Sin embargo, podemos estar más seguros de la compensación exacta de velocidad / tiempo.

La prueba de permutación está ampliamente acreditada por Fisher, el abuelo de las estadísticas del siglo XX. Está descrito en su libro de 1935 http://www.phil.vt.edu/dmayo/Phi….

Si está interesado en comprender lo que hace, aquí hay algunos recursos adicionales:
Wikpedia: remuestreo (estadísticas)
Introducción a la prueba de permutación
Construcción de pruebas de permutación (Welch 1990)

Si está interesado en usarlo: aquí hay documentación que hace referencia al paquete Coin que realiza la prueba de permutación en R, página en R-projec: Coin Package.


Editar: Entonces, esta respuesta original puede parecer insatisfactoria en el sentido de que realmente abordan la búsqueda de evidencia ‘en contra’ de que dos muestras sean de la misma distribución. Por ejemplo, con la prueba t, las medias de muestras distantes dan evidencia contra la nula de que las dos muestras son de la misma distribución, pero las medias cercanas no implican distribuciones iguales. Si tiene dos muestras y no está tan interesado en la ubicación de su distribución subyacente

La prueba de Kolmogorov-Smirnov de 2 muestras utiliza una estadística de prueba intuitiva, la distancia máxima entre el CDF empírico. Esto, naturalmente, no hace suposiciones iniciales de distribución. Si alguien más quiere escribir una respuesta al respecto, ¡siéntase libre!


[1] Suponiendo que estamos haciendo una prueba no emparejada, s_i es la desviación estándar de la muestra i, para i en {1,2}]

[2] Esta es en realidad una instancia de la prueba de Wald.

No estoy seguro de lo que quiere decir cuando dice distribuciones “similares”, sin embargo, si está tratando de demostrar que dos muestras provienen de la misma distribución, puede dividir las muestras en contenedores iguales, configurarlas como una tabla de contingencia y usar un prueba cuadrada de asociación. Por supuesto, podría usar la estadística de chi-cuadrado como proxy de similitud. Además, si está más interesado en la similitud de dos conjuntos de datos de texto, en lugar de su distribución, también podría calcular un valor de índice Jaccard.

Aparte de genérico Prueba de Kolmogorov – Smirnov que Jack mencionó, puede usar la divergencia KL que generalmente se usa en MLE (minimizar la divergencia KL).

Y si las distribuciones son discretas, también puede usar la prueba de chi-cuadrado.

Hay una serie de medidas estadísticas de distancia / similitud. La distancia de Hellinger satisface la desigualdad del triángulo (es decir, la distancia de A a B es la misma que B a A) y, por ejemplo, podría usarse para cuantificar la similitud entre dos distribuciones exponenciales.

No es realmente una métrica, pero podría probar la divergencia Kullback-Leibler, que es una medida no simétrica de la diferencia entre dos distribuciones de probabilidad P y Q. La divergencia Kullback-Leibler de Q de P , es una medida de la información perdida cuando Q se usa para aproximarse a P.

Tiendo a evitar realizar pruebas estadísticas y, en cambio, comparo modelos alternativos para los datos. Por ejemplo, podría ajustar dos modelos separados a las distribuciones paramétricas (por ejemplo, gamma o lognormal) y comparar el ajuste con un modelo que agrupa los datos en el mismo modelo. Una métrica como AIC podría usarse para evaluar si es apropiado agruparlos en el mismo modelo.

Las estadísticas no paramétricas son una solución perfecta para esto. Si está utilizando índices de similitud no paramétricos, como estadísticas basadas en rangos, no tiene que preocuparse por la distribución de la población de la que se extraen las muestras.

La prueba de rango con signo de Wilcoxon es el equivalente no paramétrico de la prueba t de estudiante emparejado.

More Interesting

Cómo ingresar a un programa de doctorado en la mejor escuela de EE. UU. En inteligencia artificial, visión artificial y aprendizaje automático

¿Cuál es la próxima gran cosa en el aprendizaje automático después de que hayamos terminado con el aprendizaje profundo?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Cuáles son las principales debilidades de la estadística de brecha para evaluar el número de clústeres presentes en un conjunto de datos?

¿Qué enfoque debo tomar para manejar los datos de desequilibrio para crear un modelo de aprendizaje automático?

¿Cuáles son los buenos algoritmos para la extracción de características para grandes conjuntos de datos?

¿Qué debo aprender para el aprendizaje automático, C ++ o Python?

¿Cuánto tiempo le lleva a un programador experimentado aprender el aprendizaje automático?

¿Qué es una regresión logística condicional?

¿Qué te sorprendió después de ver algo relacionado con el aprendizaje automático, la IA, la PNL o la visión por computadora?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿Implementó algoritmos de aprendizaje automático desde cero con el propósito de aprender?

¿Por qué visualizamos filtros en redes neuronales convolucionales? ¿No son los filtros solo conjuntos de pesas? ¿De qué sirve tratar un conjunto de pesas como una imagen?

¿De qué fuente será mejor aprender el aprendizaje automático?

¿Cuáles son buenos recursos para aprender sobre la ejecución distribuida en redes neuronales profundas (MPI, allreduce, etc.)?