¿Cuál es una interpretación útil del área? Esta área es igual a la probabilidad de que un ejemplo positivo elegido al azar se ubique arriba (se considera que tiene una mayor probabilidad de ser positivo que) a un ejemplo negativo elegido al azar.
(de la característica de funcionamiento del receptor (ROC))
¿Para una justificación de agitar las manos? Para simplificar: digamos que hay N ejemplos positivos y N negativos. Ponga todos los ejemplos de 2N en [0,1] en un punto igual a la probabilidad de que el clasificador marque ese ejemplo como positivo. Esperemos que los ejemplos positivos estén en su mayoría cerca de 1.
- ¿Alguien ha tomado un curso inmersivo de ciencia de datos con la Asamblea General cuando ya había hecho algo lejos de las computadoras? ¿Pudieron encontrar un trabajo?
- ¿Cuáles son los efectos negativos de los grandes datos?
- ¿Cómo manejan los científicos de datos las situaciones en las que es difícil obtener resultados verídicos?
- (MS en ciencia de datos) VS. (Maestría en certificación CS + en ciencia de datos), ¿qué ruta es mejor?
- Mientras se realiza PCA en 96 variables, la contribución de varianza expandida de cada componente es muy inferior a 1-1.5%. ¿Qué dice sobre los datos?
A medida que mueve el umbral del clasificador de 1 a 0, tendrá del 0% al 100% de los ejemplos por encima del umbral. Estos corresponden al punto inferior izquierdo de la curva ROC (0% de tasa de verdadero / falso positivo) y al punto superior derecho de la curva (100% de tasa de verdadero / falso positivo). Mover el umbral es como dibujar la curva.
La curva en sí, si la dibuja a “resolución” completa, se mueve en escalones de tamaño 1 / N a medida que baja el umbral. (Suponga que no hay vínculos por simplicidad; el cuadro anterior muestra 1 vínculo que produce un cambio “inclinado”).
Solo se mueve cuando el umbral cruza un punto. Si cruza un punto positivo, la tasa positiva verdadera disminuye en 1 / N porque es un recuento que se reduce en 1, dividido por el número total de ejemplos N. La curva salta hacia abajo. Del mismo modo, si cruza un ejemplo negativo, la tasa de falsos positivos cae en 1 / N. La curva salta a la izquierda.
Entonces cada sección de 1 / N a lo largo del eje x corresponde a un ejemplo negativo. Ahora elija cualquier ejemplo negativo con igual probabilidad 1 / N. Imagínese cuando el umbral está cerca de ese ejemplo negativo. La proporción de ejemplos positivos que están por encima es la verdadera tasa positiva TP en ese punto. Pero esa también es la probabilidad de que un ejemplo positivo aleatorio esté por encima de este punto. Entonces, la probabilidad general de que un ejemplo positivo aleatorio exceda un ejemplo negativo aleatorio es solo que 1 / N veces TP sumado sobre todos los ejemplos negativos.
Pero eso es solo el ancho de un bit del eje x, ancho 1 / N, correspondiente a cada ejemplo negativo, multiplicado por la altura de la curva, TP, en ese punto. Sumado, obtienes el área debajo de la curva también.