Me alegra que hayas preguntado esto, porque no importa quién seas: tus datos del mundo real casi nunca se muestrean a partir de una distribución normal.
Si tiene muchos datos, la prueba t realmente funcionará porque sus suposiciones de normalidad se vuelven irrelevantes. El teorema del límite central y el teorema de Slutsky comienzan con su estadística de prueba [1], [2]:
[matemáticas] \ frac {\ bar {X} _1 – \ bar {X} _2} {\ sqrt {s_1 ^ 2 + s_2 ^ 2}} [/ matemáticas]
Sin embargo, mi favorito personal es la prueba de permutación . Todo lo que realmente necesita saber al respecto es que:
- No hace suposiciones de distribución.
- Es una prueba exacta. Es decir, el valor p es exacto para todos los tamaños de muestra (la prueba de Wald, por ejemplo, es una prueba asintótica, por lo que mejora la precisión para muestras de gran tamaño).
- Es computacionalmente intensivo, por lo que en la práctica es aproximado, deshaciendo el punto 2. Esto hace que ya no sea exacto. Sin embargo, podemos estar más seguros de la compensación exacta de velocidad / tiempo.
La prueba de permutación está ampliamente acreditada por Fisher, el abuelo de las estadísticas del siglo XX. Está descrito en su libro de 1935 http://www.phil.vt.edu/dmayo/Phi….
- ¿Se moverá el conjunto de problemas ICPC para incluir sistemas distribuidos y aprendizaje automático en el futuro?
- ¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?
- ¿Cuáles son las ventajas y desventajas de las API de servicios cognitivos de Microsoft?
- Los hiperparámetros del modelo de sintonización no encontraron los parámetros óptimos que uso en mi modelo. ¿Por qué?
- Ahora mismo estoy aprendiendo desarrollo web, pero no creo que me sea muy útil. ¿Debo aprender el aprendizaje automático o el desarrollo de software?
Si está interesado en comprender lo que hace, aquí hay algunos recursos adicionales:
Wikpedia: remuestreo (estadísticas)
Introducción a la prueba de permutación
Construcción de pruebas de permutación (Welch 1990)
Si está interesado en usarlo: aquí hay documentación que hace referencia al paquete Coin que realiza la prueba de permutación en R, página en R-projec: Coin Package.
Editar: Entonces, esta respuesta original puede parecer insatisfactoria en el sentido de que realmente abordan la búsqueda de evidencia ‘en contra’ de que dos muestras sean de la misma distribución. Por ejemplo, con la prueba t, las medias de muestras distantes dan evidencia contra la nula de que las dos muestras son de la misma distribución, pero las medias cercanas no implican distribuciones iguales. Si tiene dos muestras y no está tan interesado en la ubicación de su distribución subyacente
La prueba de Kolmogorov-Smirnov de 2 muestras utiliza una estadística de prueba intuitiva, la distancia máxima entre el CDF empírico. Esto, naturalmente, no hace suposiciones iniciales de distribución. Si alguien más quiere escribir una respuesta al respecto, ¡siéntase libre!
–
[1] Suponiendo que estamos haciendo una prueba no emparejada, s_i es la desviación estándar de la muestra i, para i en {1,2}]
[2] Esta es en realidad una instancia de la prueba de Wald.