¿Cuáles son algunos problemas de aprendizaje automático que se resolvieron con soluciones generativas en lugar de soluciones discriminatorias?

Siguiendo el ejemplo de David Karger relacionado con la comprensión del texto, también recomendaría que estudie la Asignación de Dirichlet Latente (Asignación de Dirichlet Latente), probablemente mi modelo generativo favorito. En este caso, cada documento también se explica mediante una distribución, pero ahora, en lugar de las palabras directamente, suponemos que hay un conjunto limitado de temas latentes que se infieren de los datos.

La LDA y los modelos generativos relacionados, como el Proceso de restaurante chino o el Proceso de Dirichlet, se pueden usar para muchas otras aplicaciones además de explicar documentos de texto. En términos generales, puede pensar en ellos como una alternativa a la agrupación no supervisada, pero también he visto aplicaciones más exóticas que se extienden hasta el análisis automático de música (consulte la página en ucsd.edu, por ejemplo).

Aprendizaje automáticoCiencia dedatosinformáticaLista de preguntas

¿Qué tipo de análisis de datos hay en R?

¿Es Python el lenguaje de programación más importante para el análisis de datos?

¿Cuál es la mejor capacitación en aula para cursos de Big Data en Bangalore?

¿Qué lenguaje de programación de tipo estático proporciona un entorno fuertemente integrado para la ciencia de datos?

Con más de 50 años, ¿cuáles son mis posibilidades de convertirme en un científico de datos exitoso?

¿Qué debo hacer si voy a hacer algo de aprendizaje automático en mi sitio web y los datos no son “grandes”?

Si tomamos eso

Los modelos generativos permiten al diseñador de modelos incorporar conocimientos previos específicos en un problema. Es decir, asume una distribución subyacente específica que es específica y relevante para el problema que se está resolviendo.

Entonces, en este sentido, la pregunta está un poco mal planteada. Los modelos generativos son específicos y para resolver problemas donde los modelos generales y no específicos no son tan justos.

En términos generales, las soluciones generativas han sido deficientes durante algún tiempo debido a la incapacidad de realizar inferencia de rendimiento, a escala y con cierto nivel de precisión. Estos métodos fueron populares a finales de los 90, pero no fueron mucho más allá de la resolución de problemas con los juguetes.

Yo personalmente no usaría un método como LDA cuando ejecute NMF convexo (ala Jordan) es más simple y limpio, en mi humilde opinión. Pero es muy popular y está disponible en paquetes comerciales como GraphLab.

Más importante aún, en mi humilde opinión, LDA no es realmente el tipo de método generativo que estamos buscando, ya que incorpora conocimiento previo específico sobre el problema. Es solo otro método de agrupamiento no supervisado, que puede dar resultados arbitrarios (es decir, el problema no es convexo o está mal planteado).

Es decir, no diría que el Modelo Generativo realmente ha resuelto el problema a menos que se pueda demostrar que el problema en sí está bien planteado.
No está claro para mí que sea el método preferido, por lo que en ese sentido no diría que LDA ha resuelto el problema sobre los métodos generativos.

El trabajo reciente de Google Deep Mind muestra lo que creo que es más representativo de la intención de los métodos y probablemente lo más avanzado en la actualidad.

Aprendizaje semi-supervisado con modelos generativos profundos
Página en papers.nips.cc

–
Un ‘problema’ más teórico a resolver es comprender por qué el aprendizaje profundo es tan efectivo

http://www.cs.tau.ac.il/~wolf/de …

Dentro del contexto de Spin Glasses, la base histórica de Deep Learning, el modelo generativo más clásico es la ecuación Thouless-Anderson-Palmer (TAP), que intenta resolver el problema, ¿qué significa el estado fundamental de una red neuronal de memoria asociativa? como en tamaño muy grande.
Además, esto proporciona un marco general para el estudio de este tipo de modelos, y sirve como una especie de teorema del límite central (CLT) para gafas giratorias.
Los enfoques competitivos serían el método de réplica, la teoría de la perturbación, las variaciones de la teoría del campo medio y lo que Le Cunn está haciendo con la teoría de la matriz aleatoria.

Jordan Boyd-Graber

Uno de mis ejemplos simples favoritos de aprendizaje automático de modelos generativos es Naive Bayes ( http://en.wikipedia.org/wiki/Nai …). Suponga que desea clasificar los documentos en dos grupos, por ejemplo, documentos relevantes para una consulta y documentos que no son relevantes para una consulta. El modelo generativo Naive Bayes postula que cada grupo está determinado por una distribución de probabilidad sobre las palabras en el idioma inglés, y que cada documento en el grupo se genera al extraer repetidamente muestras independientes de la distribución del grupo. Entonces, si estaba buscando artículos sobre deportes, sospecharía que la distribución de documentos relevante asignaría una probabilidad relativamente alta a palabras como “gol”, “bases” y “pelota”, y baja probabilidad de “pintar”, “neumáticos” “y” manzanas “.

Si puede calcular las distribuciones de probabilidad de los dos grupos, puede usar el modelo resultante en un algoritmo para identificar documentos relevantes. Es fácil calcular la probabilidad de que cada distribución genere un documento que está viendo (este es el bit del modelo generativo), y una vez que sepa eso, puede aplicar el Teorema de Bayes para calcular la probabilidad de que el documento sea del correspondiente (respectivamente irrelevantes) distribuciones. Intuitivamente, si la distribución relevante tiene una probabilidad mucho mayor de generar el documento que la distribución irrelevante, entonces eso proporciona evidencia de que el documento es un documento relevante.

Lo que queda es encontrar alguna forma de adivinar las distribuciones relevantes e irrelevantes. Un enfoque común es comenzar asumiendo que las distribuciones son las mismas, pero luego mirando (por ejemplo) una consulta y aumentando la probabilidad asociada en la distribución relevante con las palabras asociadas con la consulta. También existen técnicas bayesianas estándar para, por ejemplo, recibir comentarios del usuario sobre qué documentos son relevantes y usarlos para actualizar la distribución de documentos relevantes. Se pueden usar otras variantes de este enfoque para la agrupación de documentos (donde tiene muchas más de 2 categorías).

Hay muchos más detalles en el artículo de Wikipedia sobre Naive Bayes. http://en.wikipedia.org/wiki/Nai …

Jordan Boyd-Graber

More Interesting

¿Existe una empresa de Data Science y, de ser así, hay dinero para ganar?

¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?

¿Dónde puedo encontrar conjuntos de datos de rango?

¿Qué libro o curso en línea sería el mejor para aprender estadísticas para la ciencia de datos?

¿Puedo usar el agrupamiento (técnicas de minería de datos) para la detección de cuentas falsas en las redes sociales?

¿Cuál es el mejor extractor de datos web?

¿Revisará mi currículum para los puestos de Analista de datos / Científico de datos y proporcionará algunos comentarios?

¿Cuál es la mejor manera de entender los términos "precisión" y "recordar"?

¿Cómo es ser un científico de datos en Publicis?