LDA para el modelado de temas está destinado a ser utilizado para texto. LDA aquí significa “Asignación de Dirichlet Latente”. En este modelo, cada tema está asociado con una distribución multinomial sobre el vocabulario del corpus, y cada documento tiene una distribución multinomial de temas. Es un modelo generativo: imagine crear un documento mediante el muestreo de una distribución multinomial de temas (de un Dirichlet anterior, de ahí el nombre “LDA”), y luego por cada palabra muestreando un tema de ese tema, y muestreando una palabra del multinomial sobre el vocabulario. En la práctica, en realidad no usamos el modelo generativo de esa manera, pero es lo que está detrás de todas las matemáticas.
En resumen: esto requiere que tengas algún tipo de “vocabulario” y documentos que consisten en “palabras”. No es estrictamente necesario que sea texto natural, pero puede ser cualquier tipo de modelo que tenga cualquier número de variables observadas de valores múltiples (“palabras”) por instancia (“documento”). No estoy seguro de cómo lo usaría para la clasificación de imágenes, a menos que tenga un conjunto de módulos de reconocimiento de objetos (que actuarían como las “palabras”) y asocie cada imagen por el conjunto de objetos u otras características.
El nombre “LDA” aparece en otra parte de Machine Learning como en “Análisis discriminante lineal”. Esta es una técnica básica para encontrar la “mejor” transformación lineal de características, a menudo utilizada para la clasificación. Esto podría ser mejor para las imágenes, pero probablemente desee realizar primero una construcción de entidades de nivel bajo a medio (es probable que el uso de una transformación lineal en el vector de entrada original no dé muy buenos resultados).
- ¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?
- ¿Qué es el aprendizaje automático y sus diferencias con la inteligencia artificial?
- ¿Cuáles son las desventajas de usar el algoritmo clásico de árbol de decisión para grandes conjuntos de datos?
- En la regresión cuadrática, ¿por qué tengo que mantener una variable y su aumento exponencial en el mismo modelo?
- ¿Cómo se puede reducir el tamaño del modelo TFIDF sin reducir significativamente la precisión?