¿Dónde puedo encontrar modelos de temas previamente capacitados para MALLET? La tecnología cambia la vida futura

Creo que esto te ayudará, un tutorial de

Por Shawn Graham, Scott Weingart e Ian Milligan

¿Qué es el modelado de temas y para quién es útil?

¿Qué son los asombrosos papeles gráficos de conocimiento?
Tengo un conjunto de entradas y deseo excluir las entradas extremas y calcular el promedio de las restantes. ¿Es este un problema de estadística o uno de aprendizaje automático?
¿Cuáles son los mejores laboratorios de investigación en el campo de los UAV combinados con aprendizaje automático, visión y percepción por computadora?
Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?
¿Por qué Bayes ingenuo se considera un modelo generativo?

Una herramienta de modelado de temas toma un solo texto (o corpus) y busca patrones en el uso de palabras; Es un intento de inyectar significado semántico en el vocabulario. Antes de comenzar con el modelado de temas, debe preguntarse si es probable que sea útil para su proyecto. Lectura distante de Matthew Kirschenbaum (una charla dada en el Simposio de la National Science Foundation 2009 sobre la próxima generación de minería de datos y descubrimiento cibernético para la innovación) y las máquinas de lectura de Stephen Ramsay son buenos lugares para comenzar a entender en qué circunstancias una técnica como esta podría ser más efectivo Al igual que con todas las herramientas, el hecho de que pueda usarlo no significa necesariamente que deba hacerlo. Si está trabajando con una pequeña cantidad de documentos (o incluso con un solo documento), es muy posible que los recuentos de frecuencia simples sean suficientes, en cuyo caso algo como Herramientas Voyant podría ser apropiado. Sin embargo, si tiene cientos de documentos de un archivo y desea comprender algo de lo que contiene el archivo sin leer necesariamente cada documento, entonces el modelado de temas podría ser un buen enfoque.

Los modelos de temas representan una familia de programas de computadora que extraen temas de textos . Un tema para la computadora es una lista de palabras que ocurren de manera estadísticamente significativa. Un texto puede ser un correo electrónico, una publicación de blog, un capítulo de libro, un artículo de revista, una entrada de diario, es decir, cualquier tipo de texto no estructurado. Por no estructurado queremos decir que no hay anotaciones legibles por computadora que le digan a la computadora el significado semántico de las palabras en el texto.

Los programas de modelado de temas no saben nada sobre el significado de las palabras en un texto. En cambio, suponen que cualquier pieza de texto está compuesta (por un autor) seleccionando palabras de posibles canastas de palabras donde cada canasta corresponde a un tema. Si eso es cierto, entonces es posible descomponer matemáticamente un texto en las cestas probables de donde vinieron las palabras. La herramienta pasa por este proceso una y otra vez hasta que establece la distribución más probable de palabras en cestas, lo que llamamos temas.

Hay muchos programas de modelado de temas diferentes disponibles; Este tutorial utiliza uno llamado MALLET. Si se usara en una serie de discursos políticos, por ejemplo, el programa devolvería una lista de temas y las palabras clave que componen esos temas. Cada una de estas listas es un tema según el algoritmo. Usando el ejemplo de los discursos políticos, la lista podría verse así:

Empleo Pérdida de empleos Desempleo Crecimiento
Economía Sector Economía Bancos de acciones
Afganistán Tropas de guerra Oriente Medio Terror talibán
Oponente electoral Próximo presidente
etcétera

Al examinar las palabras clave, podemos discernir que el político que pronunció los discursos estaba preocupado por la economía, el empleo, el Medio Oriente, las próximas elecciones, etc.

Como advierte Scott Weingart, hay muchos peligros que enfrentan aquellos que usan el modelado de temas sin comprenderlo completamente. Por ejemplo, podríamos estar interesados en el uso de palabras como proxy para la colocación en un espectro político. El modelado de temas ciertamente podría ayudar con eso, pero debemos recordar que el proxy no es en sí mismo lo que buscamos entender, como lo demuestra Andrew Gelman en su simulacro de estudio de zombis usando Google Trends. Ted Underwood y Lisa Rhody (ver Lecturas adicionales) sostienen que nosotros, como historiadores, sería mejor pensar en estas categorías como discursos; sin embargo, para nuestros propósitos aquí continuaremos usando la palabra: tema.

Nota: Algunas veces se encontrará con el término ” LDA ” cuando busque en la bibliografía de modelado de temas. LDA y Topic Model a menudo se usan como sinónimos, pero la técnica LDA es en realidad un caso especial de modelado de temas creado por David Blei y sus amigos en 2002. No era la primera técnica que ahora se considera modelado de temas, pero es, con mucho, la más popular. Las innumerables variaciones del modelado de temas han dado como resultado una sopa alfabética de técnicas y programas para implementarlos que pueden ser confusos o abrumadores para los no iniciados; ignóralos por ahora. Todos trabajan de la misma manera. MALLET usa LDA.

Ejemplos de modelos de temas empleados por historiadores:

Rob Nelson, Minería del despacho
Cameron Blevins, “Historia del modelado de temas del diario de Martha Ballard”, 1 de abril de 2010.
David J. Newman y Sharon Block, “Descomposición tópica probabilística de un periódico estadounidense del siglo XVIII”, Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, vol. 57, no. 6 (1 de abril de 2006): 753-767.

Instalando MALLET

Hay muchas herramientas que uno podría usar para crear modelos de temas, pero en el momento de escribir este artículo (verano de 2012), la herramienta más simple para ejecutar su texto se llama MALLET. MALLET utiliza una implementación de muestreo de Gibbs , una técnica estadística destinada a construir rápidamente una distribución de muestra, para crear sus modelos de temas. MALLET requiere el uso de la línea de comandos; hablaremos de eso más en un momento, aunque normalmente se usan los mismos comandos una y otra vez.

Si bien actualmente hay disponible una versión preliminar de MALLET 2.0.8, esta lección utiliza la versión oficial de MALLET 2.0.7. Si sigue nuestras instrucciones, asegúrese de descargar la versión correcta.

Las instrucciones de instalación son diferentes para Windows y Mac. Siga las instrucciones apropiadas para usted a continuación:

Instrucciones de Windows

Vaya a la página del proyecto MALLET y download MALLET . (Al momento de escribir esto, recuerde, estamos trabajando con la versión 2.0.7.)
También necesitará el kit de desarrollador de Java, es decir, no el Java normal que está en cada computadora, sino el que le permite programar cosas. Instala esto en tu computadora.
Descomprima MALLET en su directorio C: Esto es importante: no puede estar en ningún otro lado. Luego tendrá un directorio llamado C:\mallet-2.0.7 o similar. En aras de la simplicidad, cambie el nombre de este directorio simplemente mallet .
MALLET utiliza una variable de entorno para indicarle a la computadora dónde encontrar todos los componentes de sus procesos cuando se está ejecutando. Es más bien como un atajo para el programa. Un programador no puede saber exactamente dónde cada usuario instalará un programa, por lo que el programador crea una variable en el código
eso siempre sustituirá a esa ubicación. Le decimos a la computadora, una vez, dónde está esa ubicación configurando la variable de entorno. Si movió el programa a una nueva ubicación, tendría que cambiar la variable.

Para crear una variable de entorno en Windows 7, haga clic en su Start Menu -> Control Panel -> System -> Advanced System Settings (Figuras 1,2,3). Haga clic en nuevo y escriba MALLET_HOME en el cuadro de nombre de variable. Debe ser así, todo en mayúsculas, con un guión bajo, ya que ese es el atajo que el programador incorporó al programa y todas sus subrutinas. Luego escriba la ruta exacta (ubicación) de donde descomprimió MALLET en el valor variable, por ejemplo, c:\mallet .

Para ver si ha tenido éxito, lea la siguiente sección.

Figura 1: Configuración avanzada del sistema en Windows

Figura 2: Ubicación de las variables de entorno

Figura 3: Variable de entorno

Ejecutando MALLET usando la línea de comando

MALLET se ejecuta desde la línea de comandos, también conocida como Símbolo del sistema (Figura 4). Si recuerda MS-DOS, o alguna vez ha jugado con una Terminal de computadora Unix, esto le resultará familiar. La línea de comando es donde puede escribir comandos directamente, en lugar de hacer clic en iconos y menús.

Figura 4: Símbolo del sistema en Windows

Haga clic en el Start Menu -> All Programs -> Accessories -> Command Prompt . \ Obtendrá la ventana del símbolo del sistema, que tendrá un cursor en c:\user\user> (o similar; consulte la Figura 4).
Escriba cd .. (es decir: cd-space-period-period) para cambiar el directorio . Sigue haciendo esto hasta que estés en el C:\ . (como en la Figura 5)

Figura 5: Navegación al directorio C: \ en el símbolo del sistema

Luego escriba cd mallet y estará en el directorio MALLET. Todo lo que escriba en la ventana del símbolo del sistema es un comando . Hay comandos como cd (cambiar directorio) y dir (listar contenidos del directorio) que la computadora entiende. Tienes que decirle explícitamente a la computadora que ‘este es un comando MALLET’ cuando quieres usar MALLET. Para ello, le dice a la computadora que tome sus instrucciones del contenedor MALLET, una subcarpeta en MALLET que contiene las rutinas operativas principales.
Escriba bin\mallet como en la Figura 6. Si todo ha ido bien, debería aparecer una lista de comandos de MALLET. ¡Felicitaciones! Si recibe un mensaje de error, verifique su escritura. ¿Usaste la barra incorrecta? ¿Configuró la variable de entorno correctamente? ¿Se encuentra MALLET en C:\mallet ?

Figura 6: Símbolo del sistema MALLET instalado

Ahora está listo para pasar a la siguiente sección.

Instrucciones de Mac

Muchas de las instrucciones para la instalación de OS X son similares a las de Windows, con algunas diferencias. De hecho, es un poco más fácil.

Descargue e instale MALLET 2.0.7 ( mallet-2.0.7.tar.gaz a partir del verano de 2012).
Descargue el Kit de desarrollo de Java.

Descomprima MALLET en un directorio de su sistema (para facilitar el seguimiento junto con este tutorial, su directorio /user/ funciona pero en cualquier lugar está bien). Una vez que esté descomprimido, abra la ventana de su Terminal (en el directorio de Applications en su Buscador. Navegue al directorio donde descomprimió MALLET usando el Terminal (será mallet-2.0.7 . Si lo descomprimió en su directorio /user/ como se sugirió en esta lección, puede navegar al directorio correcto escribiendo cd mallet-2.0.7 ). cd es la abreviatura de “cambiar directorio” cuando se trabaja en la Terminal.

El mismo comando será suficiente para ejecutar comandos desde este directorio, excepto que necesita agregar ./ (punto-barra) antes de cada comando. Esto debe hacerse antes de todos los comandos MALLET cuando se trabaja en una Mac.

En el futuro, los comandos para MALLET en una Mac serán casi idénticos a los de Windows, excepto por la dirección de las barras (hay algunas otras diferencias menores que se notarán cuando surjan). Si en Windows un comando sería \bin\mallet , en una Mac debería escribir:

./bin/mallet

Debería aparecer una lista de comandos. Si es así, felicidades, ¡lo ha instalado correctamente!

Escribir comandos de MALLET

Ahora que tiene instalado MALLET, es hora de aprender qué comandos están disponibles para usar con el programa. Hay nueve comandos MALLET que puede usar (consulte la Figura 6 anterior). A veces puedes combinar múltiples instrucciones. En el símbolo del sistema o terminal (dependiendo de su sistema operativo), intente escribir:

import-dir –help

Aparece el mensaje de error de que import-dir no se reconoce como un comando interno o externo, un programa operable o un archivo por lotes. Esto se debe a que olvidamos decirle a la computadora que lo busque en el bin MALLET. Inténtalo de nuevo con

bin \ mallet import-dir –help

Recuerde, la dirección de la barra es importante (consulte la Figura 7, que proporciona una transcripción completa de lo que hemos hecho hasta ahora en el tutorial). Verificamos que habíamos instalado MALLET escribiendo bin\mallet . Luego cometimos el error con import-dir unas líneas más abajo. Después de eso, llamamos con éxito el archivo de ayuda, que nos dijo qué hace import-dir , y enumeró todos los parámetros potenciales que puede establecer para esta herramienta.

Figura 7: El menú de ayuda en MALLET

Nota: hay una diferencia en los comandos MALLET entre un guión simple y un guión doble. Un solo guión es simplemente parte del nombre; reemplaza un espacio (por ejemplo, import-dir lugar de import dir), ya que los espacios compensan múltiples comandos o parámetros. Estos parámetros nos permiten ajustar el archivo que se crea cuando importamos nuestros textos a MALLET. Un guión doble (como con –help arriba) modifica, agrega un subcomando o especifica algún tipo de parámetro al comando.

Para los usuarios de Windows, si recibió el error ‘excepción en el hilo “main” java.lang.NoClassDefFoundError:’ podría ser porque instaló MALLET en otro lugar que no sea el directorio C:\ . Por ejemplo, la instalación de MALLET en C:\Program Files\mallet generará este mensaje de error. Lo segundo que debe verificar es que su variable de entorno esté configurada correctamente. En cualquiera de estos casos, verifique las instrucciones de instalación de Windows y verifique que las haya seguido correctamente.

Trabajando con datos

MALLET viene preempaquetado con archivos .txt muestra con los que puede practicar. Escriba dir en el C:\mallet> prompt , y se le dará la lista del contenido del directorio MALLET. Uno de esos directorios se llama sample-data . Sabes que es un directorio porque tiene la palabra al lado.

Escriba cd sample-data . Escriba dir nuevamente. Usando lo que sabe, navegue primero a la web luego a los directorios en . Puede mirar dentro de estos archivos .txt escribiendo el nombre completo del archivo (con extensión).

Tenga en cuenta que ahora no puede ejecutar ningún comando MALLET desde este directorio. Intentalo:

bin \ mallet import-dir –help

Recibes el mensaje de error. Tendrá que volver a la carpeta principal de MALLET para ejecutar los comandos. Esto se debe a la forma en que MALLET y sus componentes están estructurados.

Importando datos

En el directorio de sample data , hay varios archivos .txt . Cada uno de estos archivos es un documento único, el texto de varias páginas web diferentes. Se puede considerar que toda la carpeta es un corpus de datos. Para trabajar con este corpus y descubrir cuáles son los temas que componen estos documentos individuales, necesitamos transformarlos de varios archivos de texto individuales en un solo archivo de formato MALLET. MALLET puede importar más de un archivo a la vez. Podemos importar todo el directorio de archivos de texto usando el comando de import . Los comandos a continuación importan el directorio, lo convierten en un archivo MALLET, mantienen los textos originales en el orden en que se enumeraron y eliminan las palabras de detención (palabras como y , the , but , y si eso ocurre en tales frecuencias que obstruyen el análisis) usando el diccionario predeterminado stop-words inglés. Pruebe lo siguiente, que utilizará datos de muestra.

bin \ mallet import-dir –input sample-data \ web \ en –output tutorial.mallet –keep-secuencia –remove-stopwords

Si escribe dir ahora (o ls para Mac), encontrará un archivo llamado tutorial.mallet . (Si recibe un mensaje de error, puede presionar la tecla del cursor hacia arriba en su teclado para recuperar el último comando que escribió y buscar cuidadosamente los errores tipográficos). Este archivo ahora contiene todos sus datos, en un formato con el que MALLET puede trabajar.

Intente ejecutarlo nuevamente ahora con datos diferentes. Por ejemplo, imaginemos que quisiéramos utilizar los datos de muestra alemanes en su lugar. Nosotros usaríamos:

bin \ mallet import-dir –input sample-data \ web \ de –output tutorial.mallet –keep-secuencia –remove-stopwords

Y finalmente, podría usar sus propios datos. Cambie sample-data\web\de a un directorio que contenga sus propios archivos de investigación. ¡Buena suerte!

Si no está seguro de cómo funcionan los directorios, le sugerimos la lección de Programming Historian “Introducción a la línea de comando Bash”.

Para Mac

Las instrucciones de Mac son similares a las anteriores para Windows, pero tenga en cuenta que las rutas de archivos de Unix (que son utilizadas por Mac) son diferentes: por ejemplo, si el directorio estaba en el directorio de inicio, uno escribiría

./bin/mallet import-dir –input / users / username / database / –output tutorial.mallet –keep-secuencia –remove-stopwords

Problemas con Big Data

Si está trabajando con colecciones de archivos extremadamente grandes, o de hecho, archivos muy grandes, puede tener problemas con su espacio de almacenamiento dinámico , la memoria de trabajo de su computadora. Este problema surgirá inicialmente durante la secuencia de importación, si es relevante. Por defecto, MALLET permite utilizar 1 GB de memoria. Si te encuentras con el siguiente mensaje de error, te has encontrado con tu límite:

Excepción en el subproceso “main” java.lang.OutOfMemoryError: espacio de almacenamiento dinámico Java

Si su sistema tiene más memoria, puede intentar aumentar la memoria asignada a su máquina virtual Java . Para hacerlo, debe editar el código en el archivo de mallet que se encuentra en el subdirectorio bin de su carpeta MALLET. Usando Komodo Edit, (Consulte Mac, Windows, Linux para obtener instrucciones de instalación), abra el archivo Mallet.bat ( C:\Mallet\bin\mallet.bat ) si está utilizando Windows, o el archivo mallet ( ~/Mallet/bin/mallet ) si está utilizando Linux u OS X.

Encuentra la siguiente línea:

MEMORY=1g

Luego puede cambiar el valor de 1g hacia arriba, a 2g, 4g o incluso más, dependiendo de la RAM de su sistema, que puede averiguar buscando la información del sistema de la máquina.

Guarda tus cambios. Ahora debería poder evitar el error. Si no, aumente el valor nuevamente.

Tu primer modelo de tema

En el símbolo del sistema en el directorio MALLET, escriba:

bin \ mallet train-topics –input tutorial.mallet

Este comando abre el archivo tutorial.mallet y ejecuta la rutina del modelo de tema utilizando solo la configuración predeterminada. A medida que avanza por la rutina, tratando de encontrar la mejor división de palabras en temas, la ventana del símbolo del sistema se llenará con la salida de cada ejecución. Cuando termine, puede desplazarse hacia arriba para ver qué estaba generando (como en la Figura 8).

Figura 8: Salida del modelo de tema básico

La computadora está imprimiendo las palabras clave, las palabras que ayudan a definir un tema estadísticamente significativo, según la rutina. En la Figura 8, el primer tema que imprime podría verse así (sus palabras clave pueden verse un poco diferentes):

0 5 prueba de cricket Australiano colina actuando Inglaterra líder del norte entradas finales carreras récord anotadas carrera equipo bateador jugado sociedad inglés

Si eres fanático del cricket, reconocerás que todas estas palabras podrían usarse para describir un partido de cricket. Lo que estamos tratando aquí es un tema relacionado con el cricket australiano. Si va a C:\mallet\sample-data\web\en\hill.txt , verá que este archivo es una breve biografía del conocido jugador de cricket australiano Clem Hill. El 0 y el 5 del que hablaremos más adelante en la lección. Tenga en cuenta que MALLET incluye un elemento de aleatoriedad, por lo que las listas de palabras clave se verán diferentes cada vez que se ejecute el programa, incluso si están en el mismo conjunto de datos.

Regrese al directorio principal de MALLET y escriba dir . Verá que no hay ningún archivo de salida. Si bien creamos con éxito un modelo de tema, ¡no guardamos el resultado! En el símbolo del sistema, escriba

bin \ mallet train-topics –input tutorial.mallet –num-topics 20 –output-state topic-state.gz –output-topic-keys tutorial_keys.txt –output-doc-topics tutorial_compostion.txt

Aquí, le hemos dicho a MALLET que cree un modelo de tema ( train-topics ) y todo con un guión doble luego establece diferentes parámetros

Este comando

abre tu archivo tutorial.mallet
entrena a MALLET para encontrar 20 temas
muestra cada palabra en su corpus de materiales y el tema al que pertenece en un archivo comprimido ( .gz ; vea la página de inicio de gzip sobre cómo descomprimir esto)
genera un documento de texto que muestra cuáles son las palabras clave principales para cada tema ( tutorial_keys.txt )
y genera un archivo de texto que indica el desglose, por porcentaje, de cada tema dentro de cada archivo de texto original que importó ( tutorial_composition.txt ). (Para ver la gama completa de parámetros posibles que tal vez desee ajustar, escriba bin\mallet train-topics –help en el indicador).

Escriba dir . Sus archivos de salida estarán en la parte inferior de la lista de archivos y directorios en C:\Mallet . Abra tutorial_keys.txt en un procesador de textos (Figura 9). Se le presenta una serie de párrafos. El primer párrafo es el tema 0; el segundo párrafo es el tema 1; el tercer párrafo es el tema 2; etc. (La salida comienza a contar en 0 en lugar de 1; por lo tanto, si le pide que determine 20 temas, su lista se ejecutará de 0 a 19). El segundo número en cada párrafo es el parámetro Dirichlet para el tema. Esto está relacionado con una opción que no ejecutamos, por lo que se usó su valor predeterminado (es por eso que cada tema en este archivo tiene el número 2.5).

Figura 9: Palabras clave que se muestran en un procesador de textos

Si cuando ejecutó la rutina del modelo de tema que había incluido

–Optimizar-intervalo 20

como a continuación

bin \ mallet train-topics –input tutorial.mallet –num-topics 20 –optimize-interval 20 –output-state topic-state.gz –output-topic-keys tutorial_keys.txt –output-doc-topics tutorial_composition.txt

la salida podría verse así:

0 0.02995 xi ness regular asia cine en línea establecido alvida aclamación veenr comercial

Es decir, el primer número es el tema (tema 0), y el segundo número da una indicación del peso de ese tema. En general, incluir –optimize-interval conduce a mejores temas.

La composición de tus documentos.

¿Qué temas componen sus documentos? La respuesta está en el archivo tutorial_composition.txt . Para mantenerse organizado, importe el archivo tutorial_composition.txt a una hoja de cálculo (Excel, Open Office, etc.). Tendrá una hoja de cálculo con un #doc, fuente, tema, columnas de proporción. Todas las columnas posteriores ejecutan tema, proporción, tema, proporción, etc., como en la figura 10.

Figura 10: Composición del tema

Puede ver que el documento # 0 (es decir, el primer documento cargado en MALLET), elizabeth_needham.txt tiene el tema 2 como tema principal, aproximadamente el 15%; tema 8 al 11% y tema 1 al 8%. A medida que leemos la primera columna de temas, vemos que zinta.txt también tiene el tema 2 como tema principal, con un 23%. El modelo de tema sugiere una conexión entre estos dos documentos que al principio podría no haber sospechado.

Si tiene un corpus de archivos de texto que están organizados en orden cronológico (por ejemplo, 1.txt es anterior a 2.txt ), puede graficar esta salida en su programa de hoja de cálculo y comenzar a ver cambios a lo largo del tiempo, como Robert Nelson ha hecho en Mining the Dispatch.

¿Cómo sabes la cantidad de temas a buscar? ¿Hay un número natural de temas? Lo que hemos encontrado es que uno tiene que ejecutar los temas del tren con diferentes números de temas para ver cómo se descompone el archivo de composición. Si terminamos con la mayoría de nuestros textos originales en un número muy limitado de temas, entonces tomamos eso como una señal de que necesitamos aumentar el número de temas; la configuración era demasiado gruesa. Hay formas computacionales de buscar esto, incluido el uso del hlda command hlda de hlda command , pero para el lector de este tutorial, probablemente sea más rápido recorrer varias iteraciones (pero para más información, consulte Griffiths, TL y Steyvers, M. ( 2004). Búsqueda de temas científicos. Actas de la Academia Nacional de Ciencias, 101, 5228-5235).

Conseguir tus propios textos en MALLET

La carpeta de sample data en MALLET es su guía sobre cómo debe organizar sus textos. Desea poner todo lo que desea para el modelo de tema en una sola carpeta dentro de c:\mallet , es decir, c:\mallet\mydata . Sus textos deben estar en formato .txt (es decir, si los crea con el Bloc de notas o en Word, elija Save As -> MS Dos text ). Tienes que tomar algunas decisiones. ¿Desea explorar temas a nivel de párrafo por párrafo? Entonces cada archivo txt debe contener un párrafo. Cosas como números de página u otros identificadores se pueden indicar en el nombre que le da al archivo, por ejemplo, pg32_paragraph1.txt . Si está trabajando con un diario, cada archivo de texto puede ser una sola entrada, por ejemplo, april_25_1887.txt . (Tenga en cuenta que al nombrar carpetas o archivos, no deje espacios en el nombre. En su lugar, use guiones bajos para representar espacios). Si los textos que le interesan están en la web, es posible que pueda automatizar este proceso.

Aprendizaje automáticoAsignación de Dirichlet latenteProcesamiento de lenguaje natural