¿Dónde se usa la función de pérdida con clases verdaderas desconocidas?

La intuición es similar a la del entorno de aprendizaje automático supervisado. Básicamente, en el aprendizaje supervisado, cuando tienes la etiqueta verdadera, digamos 1, entonces no incurres en pérdida si la etiqueta asignada por el modelo es 1, mientras que de lo contrario incurres en una pérdida distinta de cero.

Para el aprendizaje no supervisado, no tienes la verdadera clase. Tienes que aprender una distribución P (x, C_k), que indica qué tan probable es un ejemplo de estar en la clase C_k. Ahora, intuitivamente, querrá aprender una distribución que le dé más peso a las marcas favorables que corresponden a una menor pérdida.

Como ejemplo, considere el ejemplo de cáncer que se da en el texto.
P (x, cáncer) = 0.3
P (x, saludable) = 0.7
usando la distribución que has aprendido hasta ahora. Esto significa que según sus creencias actuales, ‘x’ tiene cáncer con probabilidad 0.3 y es saludable con probabilidad 0.7.

Ahora, la minimización de pérdidas requiere minimizar
P (x, cáncer) * (pérdida para la clase verdadera = clase saludable y predicha = cáncer) + P (x, saludable) * (pérdida para la clase verdadera = cáncer y clase predicha = saludable)
= 0.3 * 1 + 0.7 * 1000
= 700,3

Si ahora cambia las probabilidades a 0.31 y 0.69 respectivamente, el cálculo anterior da 690.31. Por lo tanto, es mejor predecir el cáncer con mayor frecuencia, lo que concuerda con la matriz de pérdida.
(En este ejemplo simple, con solo una x, tiendes a moverte hacia la solución de la esquina, pero cuando tienes muchos puntos, el problema anterior se comportará mejor).

Tenga en cuenta que, dado que no tenemos etiquetas verdaderas, básicamente utilizamos algún tipo de etiquetas blandas, ¿cuál es la probabilidad de que cada punto esté en cada una de las clases?

More Interesting

¿Por qué no es una práctica estándar publicar pesos de modelos entrenados junto con el código fuente para trabajos de investigación de aprendizaje profundo?

¿Cómo se puede aplicar el aprendizaje profundo al procesamiento de imágenes subacuáticas?

¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?

¿Cuál es la diferencia entre aprendizaje automático, minería de datos y recuperación de información?

Cómo interpretar la trama de ACF

¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?

¿Cuál es la diferencia entre optimización submodular y convexa?

¿Cuál es la forma correcta y deseable de hacer un asistente personal / bot de chat usando AI, ML y NLP?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

¿Cuáles son las mejores conferencias sobre aprendizaje automático para el procesamiento de imágenes médicas en 2016?

¿Qué está sucediendo en este gráfico de pérdida de precisión de la red?

Cómo construir un conjunto de datos para el aprendizaje automático

¿Puede un ML / AI aprender a pasar captchas?

¿Puede un principiante de programación sumergirse profundamente en el aprendizaje automático y el aprendizaje profundo directamente?

¿Cómo se usa la informática en su trabajo / campo?