¿Cuándo debo usar la asignación de Dirichlet latente en la minería de texto? ¿Es bueno usarlo para un sistema que requiere alta precisión, como un sistema de detección de fraude?

Primero es importante entender lo que puede hacer la asignación de Dirichlet latente (LDA), y luego tratar de ubicarlo en el contexto de una tubería para algo como un sistema de detección de fraude.

LDA es un modelo probabilístico para temas en un corpus. Asume una estructura de modelo gráfico muy específica en un corpus de documentos (supongo que aquí solo estamos discutiendo aplicaciones de texto, aunque LDA también se puede generalizar a otros dominios) e infiere las variables latentes del modelo. Las variables latentes (en términos generales) especifican con qué temas está asociado cada documento y la distribución de palabras de cada tema. Estos temas se infieren sin supervisión, por lo que no tienen “nombres” (por ejemplo, deportes, política), sino que se definen por la distribución que inducen sobre las palabras del vocabulario. Por lo general, al mirar con suficiente atención las distribuciones de palabras, una persona puede deducir con qué está relacionado el tema.

Esto significa que LDA no puede predecir directamente clases como spam o fraude. Sin embargo, puede ser muy útil como paso de preprocesamiento en una tubería de este tipo para extraer información o características de su corpus. Será especialmente útil si tiene razones para creer que el corpus que está modelando coincide con los supuestos del modelo, es decir, sus documentos provienen de una colección más grande, y cada uno se generó con un subconjunto de los temas del corpus en mente, e incluso más aún si siente que estos temas pueden estar relacionados con la tarea que le interesa.