¿Cuál es un buen caso de uso práctico para el modelado de temas y LDA?

Aunque se introdujeron principalmente para encontrar temas latentes en documentos de texto, los modelos de temas han demostrado ser relevantes en una amplia gama de contextos.

Encontrar temas latentes en un gran corpus de documentos
Esta es la aplicación práctica más famosa de los modelos de temas, e históricamente la que se utilizó para demostrar sus beneficios y su eficiencia (pero también algunos de sus límites). Se pueden considerar diferentes tipos de documentos / corpus, como el claro ejemplo de Twitter propuesto por Harish en otra respuesta.

La mayoría de las mejoras relacionadas con el modelado de temas se realizaron en el contexto de minería y modelado de documentos de texto:

  • Se introdujeron modelos de temas correlacionados para modelar las interacciones entre temas (http://www.cs.columbia.edu/~blei…).
  • Se exploraron modelos de temas dinámicos para descubrir cómo evolucionan los temas con el tiempo (http://www.cs.columbia.edu/~blei…).
  • Se describieron modelos de temas sintácticos para explicar las restricciones sintácticas sobre las palabras en un documento de texto (http://www.cs.columbia.edu/~blei…).

Estas mejoras se centran en mejorar la LDA básica con un modelo gráfico más sofisticado (es decir, un proceso generativo más complejo) y abordar los problemas resultantes que surgirán más adelante durante la inferencia posterior. Estos son trabajos de investigación, pero también son algunos casos de uso bastante buenos.

Encontrar acciones recurrentes en transmisiones de videovigilancia
Básicamente, un video es una secuencia de imágenes. Construyamos la analogía con documentos textuales:

  • La muestra de video completa es el corpus de documentos
  • Cada documento es un videoclip de un par de cientos de cuadros.
  • Ahora necesitamos tener palabras, un vocabulario que nos permita construir un documento. Para este asunto, consideraremos un videoclip (es decir, un documento). Primero, realicemos una resta de fondo y calculemos el flujo óptico de los píxeles de primer plano. Luego dividamos nuestra imagen en una cuadrícula de cuadrados de 10 píxeles de ancho. Ahora podemos definir un vocabulario dado al completar la posición de los píxeles de primer plano en nuestra cuadrícula con la dirección de su flujo óptico asociado (por ejemplo, {izquierda, arriba, derecha, abajo, aún}). Para una imagen de resolución de video 240 * 360, eso nos da un vocabulario de tamaño 24 * 36 * 5 = 4320 palabras. Al agregar todas las palabras en cada imagen del videoclip, se puede obtener un documento.

La analogía ahora está completa y los temas resultantes pueden interpretarse como acciones recurrentes. Una explicación muy detallada y algunos resultados muy interesantes se pueden encontrar aquí: http://www.idiap.ch/~odobez/publ…. Hay algunos trabajos recientes de Jean-Marc Odobez que aplican modelos gráficos más sofisticados para lograr objetivos similares.

Otros casos de uso
Los casos de uso son infinitos, solo hay que pensar en LDA como un proceso generativo (sin embargo, tenga cuidado, ya que podría comenzar a ver modelos de temas en todas partes).

En lo alto de mi cabeza, puedo pensar en:

  • Indización masiva de películas automáticas a partir de subtítulos.
  • Mociones de cotizaciones bursátiles de actualidad.
  • Modelado de influencia musical (Página en jmlr.org).
  • Comportamiento minero de usuarios de Internet.

LDA es un método pobre que se hizo popular por el genio del marketing de algunos académicos que han desarrollado sus carreras en él. Ignora por completo aspectos complicados e importantes de la lingüística para describir un proceso generativo de texto bastante increíble que generalmente no produce nada significativo, sorprendente y perspicaz. Si alguna vez lo ha usado, sabrá de lo que estoy hablando. De hecho, es un modelo tan no interpretable que hay documentos escritos sobre cómo analizar e interpretar su salida. ¡Uno de esos trabajos comparó el análisis de los temas resultantes de LDA con la lectura de hojas de té! Un investigador titular que conozco realizó LDA en texto y luego usó los temas aprendidos para asignar cada documento a un solo tema, utilizando efectivamente el modelo de membresía mixta LDA para la publicación cuando todo lo que finalmente quería era un modelo de agrupación de los documentos de texto. Los casos de uso de LDA están llenos de incidentes en los que las personas usaron LDA o sus variantes para parecer informados e inteligentes cuando algo más simple era mucho más adecuado para su tarea de investigación.

Supongamos que tenemos un gran corpus de noticias y si no conocemos el contenido de los documentos, es difícil clasificar las noticias con métodos de aprendizaje supervisados. LDA crea un grupo de temas y ayuda a identificar los temas latentes.
LDA también se puede utilizar para el resumen extractivo
http://dl.acm.org/citation.cfm?i

Un caso de uso sería explorar la evolución del tema en un gran corpus. Por ejemplo, podemos analizar cómo evolucionan los temas de investigación en una conferencia. Con el resultado de LDA, podemos agrupar los artículos publicados bajo un tema por año, y luego trazar la cifra por peso del tema.

Otro caso de uso sería concatenar múltiples tweets de una persona para representarlos como un documento y agrupar esos documentos bajo temas para identificar el interés de las personas involucradas.

En Computer Vision se ha utilizado para “aprender” nombres de colores de muestras de imágenes de Google.

Página sobre Hal

  1. Desarrolle un sistema de recomendación para revistas en línea basado en los temas recuperados para revistas previamente leídas.
  2. Ingeniería de características. Reduzca los documentos de texto redundantes utilizados para el modelado basado en temas.
  3. Recomendar contenido a los usuarios de Quora en función de sus preguntas / respuestas upvoted / respondidas.

More Interesting

¿Cuál es la ley cero del algoritmo de aprendizaje automático (MLA)?

¿Es bueno hacer un muestreo estratificado para la regresión cuando se le da con grandes conjuntos de datos?

¿Cuáles son las mejores prácticas en torno al aprendizaje automático y los sistemas de recomendación para sitios de trabajo?

Si, en el futuro, los robots / IA se vuelven comunes en los hogares, ¿cuál es el lenguaje de programación más probable en el que se escribirán?

¿Existe alguna comparación entre las técnicas SLAM monoculares recientes, especialmente aquellas basadas en un aprendizaje profundo?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

¿Se consideran obsoletos los métodos de preentrenamiento sin supervisión y pre-entrenamiento codiciosos en capas para el aprendizaje profundo moderno? ¿Por qué o por qué no?

¿Dónde puedo obtener más información sobre los métodos y algoritmos informáticos que coinciden y resumen diferentes partes del texto?

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

¿Qué es el procesamiento de señales y cómo se relaciona con el aprendizaje automático?

¿Cómo puede motivar a un estudiante de CS para que aprenda Machine Learning?

¿Cuáles son las cosas más difíciles o problemáticas para los ingenieros de Machine Learning / Deep Learning?

¿Qué tan útil es el aprendizaje automático?

Cómo usar Azure Machine Learning para la clasificación de documentos

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?