Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa

¿Cómo puedo demostrar que una pequeña mejora en el puntaje F es estadísticamente significativa?

Esa no es la mejor manera de enmarcar la hipótesis.

Una mejor manera sería formar una hipótesis y ejecutar una prueba de hipótesis.

Comienzas con una hipótesis, que los dos métodos que estás probando tienen el mismo F-Score y cualquier variación se debe a la aleatoriedad inherente en el mundo. Llamaremos a esto la hipótesis nula.

Ahora solo puede decir que su mejora es significativa si puede rechazar esta hipótesis con una confianza predefinida, por ejemplo, una confianza del 95% significaría un valor p de 0.05.

Una vez que tenga esta configuración lista, necesita obtener muestras reales para probar su hipótesis. Una manera fácil de hacer esto es hacer una validación cruzada k-fold para obtener k muestras para ambos métodos, y usar estas muestras para hacer una prueba t.

Otra forma es usar nuevamente la validación cruzada k fold para obtener k muestras. Luego asume que las k muestras provienen de una distribución Normal cuyos hiperparámetros puede estimar utilizando las muestras generadas. Ahora puede tomar muestras de esta parte posterior decir 100 veces y ver cómo cada vez una se desempeña mejor que la otra [Necesito aclarar esta parte aclarada con mi asesor]

En lugar de la validación cruzada k-fold, también puede probar el muestreo de bootstrap.

Descargo de responsabilidad: solo puede usar este método si está comparando estrictamente dos métodos. Si incluso ha probado otros métodos, debe aplicar la corrección de Bonferroni o alguna otra corrección porque está probando múltiples hipótesis.

Nota: El objetivo de este ejercicio es razonar si su cambio en F-Score es realmente significativo.

Nota: Me gustaría dar crédito a Bruno Ribeiro por su clase de minería de datos de la que obtuve el conocimiento anterior. Mis errores o falta de comprensión pueden no atribuirse a él.