¿Cuándo puede un algoritmo de clasificación dar un AUC de 1.0 o una clasificación perfecta?

Podría haber varias razones para eso, algunas de ellas ya se mencionaron en las respuestas a continuación. Una idea más en la que podría pensar sería en los errores de redondeo cuando está “imprimiendo” el rendimiento:
Por ejemplo, en Python, considere el caso:
>>> ‘% .2f’% 0.996
‘1.00’

Dado su conjunto de entrenamiento altamente desequilibrado, creo que puede estar interesado en este bonito artículo de revisión: “Aprender de datos desequilibrados

(Página en uri.edu).

Además, cuando compara diferentes algoritmos, le recomiendo usar validación cruzada anidada en lugar de k-fold regular para obtener una estimación de rendimiento “más” imparcial. Creo que el suyo puede ser demasiado optimista. En realidad estaba planeando escribir un artículo sobre eso, pero aún no he tenido la oportunidad de hacerlo. Aquí habría un artículo relevante:

S. Varma y R. Simon. Sesgo en la estimación de errores cuando se utiliza la validación cruzada para la selección del modelo. BMC bioinformática, 7 (1): 91, 2006.

Y un breve resumen mío: ¿Cómo evalúo un modelo?

Además de algunos ejemplos de código que muestran cómo hacerlo en Python / scikit-learn: Jupyter Notebook Viewer

Espero que sea útil, y buena suerte!

Aprendizaje automáticoCiencia de datosClasificación

Related Content

¿Qué debo hacer para convertirme en analista de datos una vez que mi título esté completo?

¿Cuáles son algunos trabajos de big data en los Estados Unidos?

¿Cómo es hacer un doctorado en aprendizaje automático / minería de datos / big data en una escuela de negocios?

¿Cómo deberían funcionar mejor la ciencia y la ingeniería de datos?

Estoy planeando aprender la herramienta de visualización de datos, ¿cuál debería considerar tableau, Qlik view, Power BI?

¿Cuál es la diferencia entre el análisis empresarial y la ciencia de datos?

¿Qué es una potencial tesis maestra de minería de datos?

Dos conjeturas:

Está mirando accidentalmente un error de entrenamiento y su modelo está sobreajustado; O
Está haciendo trampa involuntariamente al usar como característica alguna variable a la que no tendría acceso para predecir (por ejemplo, mirar hacia el futuro)

Michael Hochster

La razón principal podría ser tener una característica o características que puedan predecir perfectamente la salida ya que ha marcado todas las otras posibilidades en la respuesta, como redondear. Por ejemplo, tiene varias admisiones (A) en su conjunto de características, lo que implica que A> 1 se considera una readmisión. Tal vez no sea tan simple como eso pero similar. Puedes encontrar esto mirando tu hipótesis.

William Chen

More Interesting

¿Cuál es el alcance del análisis de datos en India?

¿Cuáles son algunas de las empresas de análisis de big data?

En un análisis de datos que ha realizado, ¿qué técnicas funcionaron y cuáles no?

¿Cuál es la diferencia entre un lenguaje de definición de datos y un lenguaje de manipulación de datos?

¿Cuál debería ser el flujo de aprendizaje para la ciencia de datos?

¿Cuál es la diferencia entre un título en Business Analytics y un título en Data Science?

¿Cuál es el mejor programa de aprendizaje automático de código abierto (red neuronal) para el reconocimiento de patrones de datos complejos?

¿Cuáles son buenas maneras de evaluar los temas generados al ejecutar LDA en un corpus?

¿Vale la pena hacer un curso de PGP en ciencia de datos de la escuela de negocios Aegis?

¿Cuáles son los proyectos prácticos de aprendizaje automático que muestran soluciones paso a paso para que pueda seguir y comprender cada paso en detalle?

¿Cuáles son los mejores sitios para aprender ciencia de datos?

¿Cuál tiene el mejor alcance, Big Data o AWS?

¿Cuál es la diferencia entre big data y DBMS?

¿Qué clases debo tomar en Duke si quiero ser un científico de datos?

¿Qué conjunto de habilidades debe poseer uno para obtener un trabajo en ciencia de datos o análisis?

Web Analytics