¿Es útil el modelo jerárquico bayesiano en la industria o las finanzas?

Una de las áreas importantes en el procesamiento del lenguaje natural es el modelado de temas. El objetivo es, dado un conjunto de documentos, descubrir “temas”. El modelado de temas se usa ampliamente para comprender ampliamente de qué documentos están hablando y ayudar a recuperar documentos que expresan un tema particular. La asignación de Dirichlet latente (LDA) utilizada en el modelado de temas es, con mucho, el modelo de tema más popular y es un modelo jerárquico bayesiano.

Este tipo de modelos probabilísticos que modelan distribuciones de datos (en oposición a las distribuciones posteriores de clases, por ejemplo) se denominan modelos generativos. En LDA arriba, los documentos se modelan de la siguiente manera:

  1. Existe un número predeterminado de “temas”, digamos k, cada uno de los cuales es una distribución sobre todo el vocabulario. Por lo tanto, una distribución con gran masa de palabras como “demócratas”, “republicanos”, “congreso”, etc. corresponde vagamente a un tema correspondiente a la política estadounidense.
  2. Se supone que cada documento es una mezcla de estos temas y, en general, esta mezcla le da importancia a algunos temas.
  3. Para generar una palabra en el documento, se elige un tema de la mezcla de temas del documento y se muestrea una palabra de la distribución de palabras correspondiente al tema.

Este proceso generativo se muestra en un diagrama de placas arriba [1].

A continuación se muestra una imagen ilustrativa del algoritmo en funcionamiento.

LDA fue desarrollado por David Blei junto con Andrew Ng y Michael I. Jordan [2] (no el de baloncesto pero igualmente famoso en la comunidad de ML) como modelo temático, mientras que el mismo modelo fue desarrollado independientemente por JK Pritchard, M. Stephens y P. Donnelly por estudiar la genética de poblaciones [3]. Mientras que el primero parece tener 18880 citas en Google Scholar, el segundo tiene 19782, tan popular, diría yo.

¿Cuál es una buena explicación de la asignación de Dirichlet latente? parece hacer un buen trabajo explicando el modelo.

Notas al pie

[1] Notación de placas – Wikipedia

[2] http://jmlr.csail.mit.edu/papers…

[3] Inferencia de la estructura de la población utilizando datos del genotipo multilocus

Eso ciertamente puede ser explorado. Si bien los modelos de redes casuales y de separación en d se pueden considerar convenientemente aplicables, siempre que se cuente con el conocimiento previo de los Estados, los modelos jerárquicos, si se configuran correctamente, podrían funcionar, pero no soy muy competente en el mundo financiero.