Para calcular la curva característica de funcionamiento del receptor, debe poder variar algún parámetro que afecte al clasificador para poder trazar una curva y no solo un punto que refleje el rendimiento de un clasificador particular.
También necesita una forma de medir la proporción de verdaderos positivos y falsos positivos; en este caso, necesita algún estándar objetivo para el cual los documentos deberían haberse incluido en el conjunto de resultados para una consulta en particular.
Por ejemplo, en su sistema de recuperación de documentos, quizás el mecanismo subyacente es asignar a cada documento una puntuación coincidente y luego devolver solo aquellos documentos cuya puntuación es mayor que algún umbral.
- ¿Es suficiente tomar todos los cursos de la especialización de Machine Learning de la Universidad de Washington en el curso para obtener mi primer trabajo / pasantía en ML?
- ¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?
- Estoy usando Weka e implementé la ganancia de información forestal aleatoria usando Java. ¿Cuáles son algunos consejos sobre cómo imprimir cuántas funciones tiene después de aplicar la ganancia de información y cómo imprimir los nombres de las funciones y sus valores de ganancia de información en orden descendente (solo funciones de ganancia de información)?
- Cómo aplicar mis conocimientos de aprendizaje automático para invertir en el mercado de valores indio
- ¿Cuántas imágenes necesita un buen sistema de aprendizaje automático para aprender un nuevo concepto?
Un único punto en la curva ROC sería la proporción de falsos positivos (documentos incluidos en el conjunto de resultados que no coinciden, de todos los documentos en el corpus que no coinciden) versus verdaderos positivos (documentos incluidos en el conjunto de resultados que coinciden, de todos los documentos en el corpus que coinciden), para una configuración particular de ese parámetro de “umbral”. A medida que relaja el “umbral”, generalmente aumentará la proporción de positivos verdaderos (se incluirán más documentos coincidentes) a expensas de incluir más falsos positivos (se incluirán más distractores).
La curva que se traza al variar el umbral es la curva ROC.
Podría graficar una curva ROC diferente para cada consulta posible, o podría promediar todas las consultas posibles (tal vez ponderadas por la frecuencia de la consulta) para producir una curva ROC general.