La intuición es similar a la del entorno de aprendizaje automático supervisado. Básicamente, en el aprendizaje supervisado, cuando tienes la etiqueta verdadera, digamos 1, entonces no incurres en pérdida si la etiqueta asignada por el modelo es 1, mientras que de lo contrario incurres en una pérdida distinta de cero.
Para el aprendizaje no supervisado, no tienes la verdadera clase. Tienes que aprender una distribución P (x, C_k), que indica qué tan probable es un ejemplo de estar en la clase C_k. Ahora, intuitivamente, querrá aprender una distribución que le dé más peso a las marcas favorables que corresponden a una menor pérdida.
Como ejemplo, considere el ejemplo de cáncer que se da en el texto.
P (x, cáncer) = 0.3
P (x, saludable) = 0.7
usando la distribución que has aprendido hasta ahora. Esto significa que según sus creencias actuales, ‘x’ tiene cáncer con probabilidad 0.3 y es saludable con probabilidad 0.7.
- ¿Cómo se ve afectada la propagación hacia atrás en NN recurrentes?
- ¿Debo aprender Python o R para el aprendizaje automático si estoy cursando mi licenciatura en matemáticas e ingeniería informática? ¿Qué idioma se usa más en las industrias?
- ¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?
- ¿Qué lenguajes de programación son adecuados para el procesamiento del lenguaje natural?
- ¿Por qué mi árbol de clasificación que realicé en MATLAB muestra solo un nodo?
Ahora, la minimización de pérdidas requiere minimizar
P (x, cáncer) * (pérdida para la clase verdadera = clase saludable y predicha = cáncer) + P (x, saludable) * (pérdida para la clase verdadera = cáncer y clase predicha = saludable)
= 0.3 * 1 + 0.7 * 1000
= 700,3
Si ahora cambia las probabilidades a 0.31 y 0.69 respectivamente, el cálculo anterior da 690.31. Por lo tanto, es mejor predecir el cáncer con mayor frecuencia, lo que concuerda con la matriz de pérdida.
(En este ejemplo simple, con solo una x, tiendes a moverte hacia la solución de la esquina, pero cuando tienes muchos puntos, el problema anterior se comportará mejor).
Tenga en cuenta que, dado que no tenemos etiquetas verdaderas, básicamente utilizamos algún tipo de etiquetas blandas, ¿cuál es la probabilidad de que cada punto esté en cada una de las clases?