¿Cuál es la relación entre el análisis semántico latente / indexación, SVD y TF-IDF en la minería de texto?

Primero, TF-IDF no es un método para comprimir la dimensión vectorial. TF-IDF, y también bolsa de palabras, son métodos para representar un documento como un vector. Ambos métodos representan un documento como vector con dimensión N donde N es el número de palabras posibles.

La entrada de corrosión para una palabra específica en el vector dada por la representación de la bolsa de palabras indica el recuento de cuántas veces la palabra está en el texto del documento. mientras que para un vector proporcionado por TF-IDF, la entrada indica un peso que depende de cuántas veces aparece la palabra en el documento y de cuán rara aparece en otros documentos.

Ahora, dado un montón de documentos M, puede juntarlos en una matriz con dimensión M x N (cada documento es una fila con N dimensión representada por una bolsa de palabras o TF-IDF). Esta matriz C se llama matriz documento-término.

LSA es una técnica que usa SVD como una herramienta matemática para encontrar una matriz de bajo rango que se aproxima a la matriz de término de documento dada de modo que la dimensión de la nueva matriz sea ( M x K ) y ( k <N ). Cada fila representaba un documento (con dimensión K ). Esta representación aproximada puede capturar la relación entre palabras que podrían no haber estado presentes en la matriz original de términos del documento.