Primero es importante entender lo que puede hacer la asignación de Dirichlet latente (LDA), y luego tratar de ubicarlo en el contexto de una tubería para algo como un sistema de detección de fraude.
LDA es un modelo probabilístico para temas en un corpus. Asume una estructura de modelo gráfico muy específica en un corpus de documentos (supongo que aquí solo estamos discutiendo aplicaciones de texto, aunque LDA también se puede generalizar a otros dominios) e infiere las variables latentes del modelo. Las variables latentes (en términos generales) especifican con qué temas está asociado cada documento y la distribución de palabras de cada tema. Estos temas se infieren sin supervisión, por lo que no tienen “nombres” (por ejemplo, deportes, política), sino que se definen por la distribución que inducen sobre las palabras del vocabulario. Por lo general, al mirar con suficiente atención las distribuciones de palabras, una persona puede deducir con qué está relacionado el tema.
Esto significa que LDA no puede predecir directamente clases como spam o fraude. Sin embargo, puede ser muy útil como paso de preprocesamiento en una tubería de este tipo para extraer información o características de su corpus. Será especialmente útil si tiene razones para creer que el corpus que está modelando coincide con los supuestos del modelo, es decir, sus documentos provienen de una colección más grande, y cada uno se generó con un subconjunto de los temas del corpus en mente, e incluso más aún si siente que estos temas pueden estar relacionados con la tarea que le interesa.
- ¿Cuáles son los pros y los contras comparativos de usar Python, MATLAB / Octave y R para el análisis de datos y el aprendizaje automático?
- ¿Estamos presenciando las primeras etapas del uso de ML en la industria o cree que la aplicación de ML hacia la industria ya está muy extendida?
- ¿Cuál es una buena puntuación porcentual en los problemas de conocimiento de Kaggle para principiantes?
- Cómo interpretar los resultados de agrupación de k-means
- ¿Cuál es la diferencia entre alineación y deformación en visión artificial?