¿Cuál es la diferencia clave entre el aprendizaje supervisado y el no supervisado? ¿Por qué es más fácil hacer un aprendizaje supervisado (necesito pruebas matemáticas)?

La diferencia clave entre el aprendizaje supervisado y el no supervisado es que el aprendizaje supervisado intenta predecir las etiquetas P (Y | X), mientras que en el aprendizaje no supervisado estamos tratando de obtener un modelo que modele la distribución X P (X). Y usted puede preguntar qué es P (X) y qué es una buena P (X)?

P (X) = P (X | Z (X)) es la probabilidad de observar datos dada alguna representación interna Z. Típicamente, la Z es una representación dimensional baja, por ejemplo, un número bajo de componente principal, un número de clúster o una capa latente en Una red neuronal. Z es típicamente la salida en la que estamos interesados, ya que realizamos el aprendizaje no supervisado como reducción de la dimensionalidad en general. Por lo tanto, queremos capturar la mayor cantidad posible de variaciones interesantes en estas variables e ignorar el ruido. Pero, ¿cuál es la variación interesante?

Arriba he ilustrado los dos desafíos principales en el aprendizaje no supervisado:

  • Especificar una función de probabilidad para un amplio conjunto de variables que tienen covarianza compartida o tienen relaciones no lineales. Rompe el supuesto de independencia estándar que permite la separación de los términos en el espacio logs P (x) = P (x1) * P (x2) * P (x3)…. Y por lo tanto son muy difíciles. Incluso P (x1) no es trivial, ya que nadie dice que proviene de un gaussiano.
  • Asegurar que la representación latente sea significativa es muy difícil y depende totalmente de la aplicación.

En el aprendizaje supervisado, especialmente la clasificación, la probabilidad se da con buenos antecedentes teóricos. La pérdida de entropía cruzada tiene una base sólida y se comporta muy bien. En la regresión, el objetivo no está establecido, pero MSE funciona bien en la mayoría de los casos con una potencial transformación logarítmica.

Para obtener soluciones interesantes para el aprendizaje genérico sin supervisión, le sugiero que busque en las redes de confrontación generativas (GAN). Aquí un modelo generativo tiene que aprender a generar ejemplos falsos a partir de sorteos aleatorios de la distribución latente tan bien que otro modelo no puede ver la diferencia entre falso y real. De este modo, trabajas alrededor de especificar la parte de probabilidad. Pero cuidado con las redes neuronales es una perra y dominar dos redes neuronales que intentan engañarse mutuamente no es algo que domines en una tarde.