¿Cuáles son algunas reglas de clasificación de pulgares?

Aquí hay algunas pautas útiles sobre cómo evaluar el desempeño de un modelo de clasificación:

  1. Cuando utilice la precisión, compárela siempre con la “precisión de referencia” (es decir, la proporción de la clase más prevalente). La precisión a menudo no tiene sentido en los problemas desequilibrados (si solo el 1% de la población tiene una enfermedad, uno puede alcanzar el 99% de precisión simplemente declarando a todos sanos).
  2. El AUC (ROC) a menudo da resultados de sonido muy optimistas en problemas desequilibrados, incluso cuando el rendimiento no es tan bueno en un sentido práctico. (Vea mi respuesta a: ¿Cómo puede AUROC ser engañoso al comparar modelos predictivos?)
  3. Las curvas de precisión / recuperación son una métrica muy valiosa y poco utilizada. Los puntajes F-1 representan el rendimiento en un solo punto de esa curva y favorecen las soluciones donde la precisión y la recuperación son casi iguales (por ejemplo, favorecerá el 70% de recuperación y el 70% de precisión sobre 60/80 o 80/60)
  4. Considere si su escenario de predicción es un problema de alta o baja señal . En un problema de alta señal (por ejemplo, reconocimiento de objetos), espera que haya suficiente información para clasificar cada instancia (o casi todas las instancias) correctamente. En un problema de baja señal (por ejemplo, predicción de readmisión, estratificación de riesgo, predicción predeterminada) no es razonable esperar ese nivel de rendimiento. Por ejemplo, un modelo para predecir incumplimientos de préstamos puede estratificar a las personas en personas con un riesgo de incumplimiento del .1% o un riesgo de incumplimiento del 20%, pero en la mayoría de los casos, incluso los préstamos de mayor riesgo tienen más del 50% de probabilidades de reembolso . Por lo tanto, nunca podría obtener una precisión de más del 50%, incluso con un retiro muy bajo. Esto no significa que estos modelos no sean útiles.

More Interesting

En los modelos gráficos, ¿cuál es la diferencia entre un gráfico de clúster y un gráfico de factores?

¿Importa el número de imágenes para cada categoría mientras se entrena para una red neuronal convolucional?

¿Cuánto del aprendizaje automático es en realidad solo optimización?

¿Cómo debo combinar la retroalimentación implícita y explícita en el filtrado colaborativo?

¿Hay otros ejemplos de algoritmos de PNL que escriben libros publicados?

¿Es posible el aprendizaje automático acelerado por GPU utilizando un controlador de gráficos de software libre?

¿Por qué tenemos que convertir el valor categórico en factor (en R) o variables ficticias antes de aplicar algoritmos de aprendizaje automático (especialmente regresión lineal)? ¿Afecta nuestros resultados?

Si quiero comenzar con el aprendizaje profundo, ¿debería comprar una GPU de gama baja o aprovechar una solución en la nube? ¿Cuál es más barato / mejor?

¿Existe un programa de tipo PageRank para organizar mis canales RSS diarios?

¿Es incorrecto si realizo un análisis de opinión en revisiones individuales en lugar de en todas las revisiones a la vez?

¿Cuál es la diferencia entre el aprendizaje de refuerzo basado en modelos y sin modelos?

¿Debo eliminar las URL cuando hago el preprocesamiento para un análisis de sentimientos de Twitter?

Como estudiante de pregrado de CS interesado en el aprendizaje automático, ¿cómo puedo saber si me gustaría la economía / computación financiera?

Cómo calcular la probabilidad de que una oración aparezca en algún lugar del texto usando Word2Vec

¿Qué métodos existen para combatir los problemas de gradiente de desaparición y explosión?