¿Cómo se determina la significación estadística para las curvas ROC y los valores de AUC?

Método 1 :
El AUC tiene una propiedad estadística importante: el AUC de un clasificador es equivalente a la probabilidad de que el clasificador clasifique una instancia positiva elegida al azar más alta que una instancia negativa elegida al azar. Esto es equivalente a la ‘ estadística U de Mann-Whitney ‘ o ‘estadística de suma de rango de Wilcoxon’. Árbitro. [1] tiene una muy buena derivación.

[matemáticas] AUC = \ frac {U} {n_Pn_N} [/ matemáticas]

[matemáticas] U = AUC * n_P * n_N [/ matemáticas]

donde, [math] n_P [/ math] y [math] n_N [/ math] son ​​el número de ejemplos positivos y negativos, respectivamente.

Una vez que haya calculado una estadística [matemática] U [/ matemática], puede compararla con la tabla de valores críticos y obtener el nivel de significación.

Método 2 :
Puede evaluar la importancia de un valor de AUC realizando una prueba de permutación . Puede hacer esto al 1) permutar aleatoriamente las etiquetas de clase de sus vectores de características, 2) ejecutar su clasificador y 3) registrar el AUC. Repita los pasos 1-2-3 una gran cantidad de veces y registre todos los AUC ‘aleatorios’. Finalmente, puede comparar el AUC observado con la distribución empírica de AUC ‘aleatorios’ (AUC_r) de las pruebas de permutación para obtener un valor p = fracción de AUC_r mayor o igual a su AUC observado.

[1] Mason, SJ, Graham, NE (2002). Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significación estadística e interpretación. Revista trimestral de la Royal Meteorological Society (128): 2145–2166.

Puede encontrar el PDF aquí: http://www.inmet.gov.br/document…

More Interesting

Cómo hacer aprendizaje automático usando scikit-learn para un archivo CSV que tiene muchas columnas de texto

¿Es una idea loca aprender el aprendizaje automático y el aprendizaje profundo sin ningún conocimiento avanzado de matemáticas?

Kaggle: ¿Cuáles son las técnicas utilizadas para reducir el número de columnas antes de predecir la variable dependiente? Por favor vea la descripción

¿Cuáles fueron las principales conclusiones del tutorial de Richard Sutton sobre el aprendizaje por refuerzo en NIPS 2015?

¿Siguen siendo relevantes los enfoques simbólicos de IA después de los recientes éxitos del aprendizaje profundo?

¿La red neuronal convolucional es básicamente un procesamiento previo de datos a través del núcleo más las redes neuronales? ¿Acaso Deep Learning no es solo redes neuronales con preprocesamiento para las selecciones de funciones automatizadas?

¿Cuáles son las próximas competencias de Kaggle?

¿Cuán relevantes son las redes neuronales atractoras en la investigación actual del aprendizaje automático?

¿Es posible construir algo así como una red neuronal recurrente simplemente ingresando los mismos datos a lo largo del tiempo (por ejemplo, si los datos son una aceleración, cada entrada es el acc a la vez T)?

¿Dónde puedo descargar datos de proyecto disponibles públicamente para entrenar mi red neuronal?

Cómo evaluar los mejores resultados posibles para un clasificador SVM

¿Cómo deciden los científicos computacionales qué estrategia usar para la validación cruzada?

Cómo evaluar mi modelo cada época en TensorFlow

¿Cuáles son los algoritmos de aprendizaje automático adecuados para Big Data o análisis en tiempo real?

¿Cómo deberías comenzar una carrera en Machine Learning?