Debido a que la pérdida de entropía cruzada depende del residuo (diferencia entre la probabilidad real y la probabilidad pronosticada para una muestra)
Calculamos la precisión en el umbral de puntaje de probabilidad 0.5, por lo que un puntaje predicho 0.55, 0.6 o incluso 0.9 son todos “con precisión” diciendo la etiqueta 1. De manera similar, los puntajes pronosticados de 0.49, 0.3,0,0001 apuntan hacia una etiqueta 0. Idealmente, todas estas etiquetas son precisas y aún así querríamos entrenar para reducir la brecha entre el problema pronosticado y el problema real (aquí 0.9 es mucho mejor que 0.55 para un etiqueta 1)
Considere la imagen a continuación, aquí los clasificadores naranja y verde dan una precisión del 100% durante el entrenamiento, pero la brecha en la probabilidad pronosticada está disminuyendo y, por lo tanto, la pérdida.
- ¿Cómo se calcula el subconjunto de vocabulario en 'Al usar vocabulario de objetivos muy grandes para la traducción automática neuronal'?
- ¿Podría la red neuronal de convolución completa aprender a discriminar entre clases si no hay muestreo descendente y la entrada es igual a salida?
- ¿Son los modelos de n-gramas, la codificación de uno en caliente y word2vec diferentes tipos de representaciones de palabras y vectores de palabras?
- ¿Qué motor de recomendación / personalización estándar ofrece recomendaciones utilizando tanto el aprendizaje automático como la entrada manual?
- ¿Cuál es el mejor libro sobre Support Vector Machines?