¿Cuáles son algunos problemas de aprendizaje automático que se resolvieron con soluciones generativas en lugar de soluciones discriminatorias?

Siguiendo el ejemplo de David Karger relacionado con la comprensión del texto, también recomendaría que estudie la Asignación de Dirichlet Latente (Asignación de Dirichlet Latente), probablemente mi modelo generativo favorito. En este caso, cada documento también se explica mediante una distribución, pero ahora, en lugar de las palabras directamente, suponemos que hay un conjunto limitado de temas latentes que se infieren de los datos.

La LDA y los modelos generativos relacionados, como el Proceso de restaurante chino o el Proceso de Dirichlet, se pueden usar para muchas otras aplicaciones además de explicar documentos de texto. En términos generales, puede pensar en ellos como una alternativa a la agrupación no supervisada, pero también he visto aplicaciones más exóticas que se extienden hasta el análisis automático de música (consulte la página en ucsd.edu, por ejemplo).

Si tomamos eso

Los modelos generativos permiten al diseñador de modelos incorporar conocimientos previos específicos en un problema. Es decir, asume una distribución subyacente específica que es específica y relevante para el problema que se está resolviendo.

Entonces, en este sentido, la pregunta está un poco mal planteada. Los modelos generativos son específicos y para resolver problemas donde los modelos generales y no específicos no son tan justos.

En términos generales, las soluciones generativas han sido deficientes durante algún tiempo debido a la incapacidad de realizar inferencia de rendimiento, a escala y con cierto nivel de precisión. Estos métodos fueron populares a finales de los 90, pero no fueron mucho más allá de la resolución de problemas con los juguetes.

Yo personalmente no usaría un método como LDA cuando ejecute NMF convexo (ala Jordan) es más simple y limpio, en mi humilde opinión. Pero es muy popular y está disponible en paquetes comerciales como GraphLab.

Más importante aún, en mi humilde opinión, LDA no es realmente el tipo de método generativo que estamos buscando, ya que incorpora conocimiento previo específico sobre el problema. Es solo otro método de agrupamiento no supervisado, que puede dar resultados arbitrarios (es decir, el problema no es convexo o está mal planteado).

Es decir, no diría que el Modelo Generativo realmente ha resuelto el problema a menos que se pueda demostrar que el problema en sí está bien planteado.
No está claro para mí que sea el método preferido, por lo que en ese sentido no diría que LDA ha resuelto el problema sobre los métodos generativos.

El trabajo reciente de Google Deep Mind muestra lo que creo que es más representativo de la intención de los métodos y probablemente lo más avanzado en la actualidad.

Aprendizaje semi-supervisado con modelos generativos profundos
Página en papers.nips.cc


Un ‘problema’ más teórico a resolver es comprender por qué el aprendizaje profundo es tan efectivo

http://www.cs.tau.ac.il/~wolf/de

Dentro del contexto de Spin Glasses, la base histórica de Deep Learning, el modelo generativo más clásico es la ecuación Thouless-Anderson-Palmer (TAP), que intenta resolver el problema, ¿qué significa el estado fundamental de una red neuronal de memoria asociativa? como en tamaño muy grande.
Además, esto proporciona un marco general para el estudio de este tipo de modelos, y sirve como una especie de teorema del límite central (CLT) para gafas giratorias.
Los enfoques competitivos serían el método de réplica, la teoría de la perturbación, las variaciones de la teoría del campo medio y lo que Le Cunn está haciendo con la teoría de la matriz aleatoria.

Uno de mis ejemplos simples favoritos de aprendizaje automático de modelos generativos es Naive Bayes ( http://en.wikipedia.org/wiki/Nai …). Suponga que desea clasificar los documentos en dos grupos, por ejemplo, documentos relevantes para una consulta y documentos que no son relevantes para una consulta. El modelo generativo Naive Bayes postula que cada grupo está determinado por una distribución de probabilidad sobre las palabras en el idioma inglés, y que cada documento en el grupo se genera al extraer repetidamente muestras independientes de la distribución del grupo. Entonces, si estaba buscando artículos sobre deportes, sospecharía que la distribución de documentos relevante asignaría una probabilidad relativamente alta a palabras como “gol”, “bases” y “pelota”, y baja probabilidad de “pintar”, “neumáticos” “y” manzanas “.

Si puede calcular las distribuciones de probabilidad de los dos grupos, puede usar el modelo resultante en un algoritmo para identificar documentos relevantes. Es fácil calcular la probabilidad de que cada distribución genere un documento que está viendo (este es el bit del modelo generativo), y una vez que sepa eso, puede aplicar el Teorema de Bayes para calcular la probabilidad de que el documento sea del correspondiente (respectivamente irrelevantes) distribuciones. Intuitivamente, si la distribución relevante tiene una probabilidad mucho mayor de generar el documento que la distribución irrelevante, entonces eso proporciona evidencia de que el documento es un documento relevante.

Lo que queda es encontrar alguna forma de adivinar las distribuciones relevantes e irrelevantes. Un enfoque común es comenzar asumiendo que las distribuciones son las mismas, pero luego mirando (por ejemplo) una consulta y aumentando la probabilidad asociada en la distribución relevante con las palabras asociadas con la consulta. También existen técnicas bayesianas estándar para, por ejemplo, recibir comentarios del usuario sobre qué documentos son relevantes y usarlos para actualizar la distribución de documentos relevantes. Se pueden usar otras variantes de este enfoque para la agrupación de documentos (donde tiene muchas más de 2 categorías).

Hay muchos más detalles en el artículo de Wikipedia sobre Naive Bayes. http://en.wikipedia.org/wiki/Nai