Primero, TF-IDF no es un método para comprimir la dimensión vectorial. TF-IDF, y también bolsa de palabras, son métodos para representar un documento como un vector. Ambos métodos representan un documento como vector con dimensión N donde N es el número de palabras posibles.
La entrada de corrosión para una palabra específica en el vector dada por la representación de la bolsa de palabras indica el recuento de cuántas veces la palabra está en el texto del documento. mientras que para un vector proporcionado por TF-IDF, la entrada indica un peso que depende de cuántas veces aparece la palabra en el documento y de cuán rara aparece en otros documentos.
Ahora, dado un montón de documentos M, puede juntarlos en una matriz con dimensión M x N (cada documento es una fila con N dimensión representada por una bolsa de palabras o TF-IDF). Esta matriz C se llama matriz documento-término.
- ¿Puede el desarrollador de hadoop aprender el aprendizaje automático?
- Cómo usar el aprendizaje automático para unir un patrón a partir de valores CSV
- Cómo obtener una pasantía de investigación del profesor en la NYU en proyectos que necesitan experiencia en minería de datos o aprendizaje automático
- ¿Qué significa esto exactamente, "Cambiar los puntos de inicialización durante el entrenamiento" para el aprendizaje profundo?
- ¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?
LSA es una técnica que usa SVD como una herramienta matemática para encontrar una matriz de bajo rango que se aproxima a la matriz de término de documento dada de modo que la dimensión de la nueva matriz sea ( M x K ) y ( k <N ). Cada fila representaba un documento (con dimensión K ). Esta representación aproximada puede capturar la relación entre palabras que podrían no haber estado presentes en la matriz original de términos del documento.