La pérdida (entropía cruzada) está disminuyendo, pero la precisión sigue siendo la misma durante el entrenamiento de redes neuronales convolucionales. Como puede suceder

Debido a que la pérdida de entropía cruzada depende del residuo (diferencia entre la probabilidad real y la probabilidad pronosticada para una muestra)

Calculamos la precisión en el umbral de puntaje de probabilidad 0.5, por lo que un puntaje predicho 0.55, 0.6 o incluso 0.9 son todos “con precisión” diciendo la etiqueta 1. De manera similar, los puntajes pronosticados de 0.49, 0.3,0,0001 apuntan hacia una etiqueta 0. Idealmente, todas estas etiquetas son precisas y aún así querríamos entrenar para reducir la brecha entre el problema pronosticado y el problema real (aquí 0.9 es mucho mejor que 0.55 para un etiqueta 1)

Considere la imagen a continuación, aquí los clasificadores naranja y verde dan una precisión del 100% durante el entrenamiento, pero la brecha en la probabilidad pronosticada está disminuyendo y, por lo tanto, la pérdida.

Si la red está prediciendo perro con probabilidad 0.51, la imagen se clasifica como perro. Si predice perro con probabilidad 0.99, la imagen todavía se clasifica como perro.

La pérdida de entropía cruzada en el caso dos será mucho menor que el caso uno. Su precisión sigue siendo la misma.

More Interesting

¿Cuáles son algunas de las estadísticas más importantes y más engañosas en la predicción de partidos de fútbol?

Cómo comenzar una investigación independiente en aprendizaje profundo

Cómo eliminar una fila completa de un conjunto de datos si encuentro entradas faltantes en R

¿Un doctorado en aprendizaje automático centrado en un tema que no sea el aprendizaje profundo seguirá siendo comercializable (en la industria) en 2020?

¿Es el curso de aprendizaje automático de Andrew Ng en Coursera una versión simplificada del curso CS 229: aprendizaje automático que enseñó en Stanford?

Al predecir un resultado binario, ¿cómo toman en cuenta las personas el orden en que ocurren las entradas?

¿Por qué las técnicas de optimización como el gradiente natural y los métodos de segundo orden (L-BFGS por ejemplo) no se usan mucho en el aprendizaje profundo?

¿Puede un ML / AI aprender a pasar captchas?

¿En qué se diferencia el método de agrupamiento en el aprendizaje automático de disparar una consulta SQL 'select' para agrupar personas u objetos? ¿Cuáles son las diferencias y necesidades reales?

Me encanta codificar. '¿Hay alguna comunidad en la que pueda participar en pequeños proyectos para poder conectarme a ellos de forma remota y aprender?

¿Por qué las personas usan Keras en el back-end de TensorFlow y no solo en TensorFlow?

¿Dónde puedo encontrar excelentes bibliotecas de aprendizaje automático para Java?

¿Cómo detectamos las anamolias que causan la caída de la máquina y la pérdida de producción en la fabricación?

¿Qué significa el término difusión en bibliotecas numéricas con matrices como MATLAB, Numpy o TensorFlow?

¿Qué significa realmente el aprendizaje automático en términos reales?