¿Cuál es la relación entre el análisis semántico latente / indexación, SVD y TF-IDF en la minería de texto?

Primero, TF-IDF no es un método para comprimir la dimensión vectorial. TF-IDF, y también bolsa de palabras, son métodos para representar un documento como un vector. Ambos métodos representan un documento como vector con dimensión N donde N es el número de palabras posibles.

La entrada de corrosión para una palabra específica en el vector dada por la representación de la bolsa de palabras indica el recuento de cuántas veces la palabra está en el texto del documento. mientras que para un vector proporcionado por TF-IDF, la entrada indica un peso que depende de cuántas veces aparece la palabra en el documento y de cuán rara aparece en otros documentos.

Ahora, dado un montón de documentos M, puede juntarlos en una matriz con dimensión M x N (cada documento es una fila con N dimensión representada por una bolsa de palabras o TF-IDF). Esta matriz C se llama matriz documento-término.

LSA es una técnica que usa SVD como una herramienta matemática para encontrar una matriz de bajo rango que se aproxima a la matriz de término de documento dada de modo que la dimensión de la nueva matriz sea ( M x K ) y ( k <N ). Cada fila representaba un documento (con dimensión K ). Esta representación aproximada puede capturar la relación entre palabras que podrían no haber estado presentes en la matriz original de términos del documento.

Related Content

Cómo convertir un algoritmo de entrenamiento de redes neuronales realmente poderoso en un producto comercial

¿Quién es la estrella en ascenso de la IA fuera del aprendizaje profundo?

¿Puede explicar la optimización convexa sin matrices de arpillera y solo la segunda derivada?

¿Cuál es la diferencia entre el descenso en gradiente y el descenso coordinado?

¿Cuáles son algunas técnicas comunes para el aumento de datos de video en el aprendizaje profundo?

Cómo lidiar con una matriz escasa de pares de elementos de usuario mientras se construye un sistema de recomendación de filtrado colaborativo basado en perceptrón

¿Quién es más probable que cree AGI?

More Interesting

¿Cómo entiendes las ecuaciones de MLE para los clasificadores Naive Bayes en el libro de aprendizaje automático de Kevin Murphy?

¿Cuál es el mejor software para Machine Learning y Deep Learning, de acuerdo con el tamaño del conjunto de datos y el sistema?

¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación en el mercado de valores?

¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?

¿Cuáles son algunas bibliotecas de software para el aprendizaje a gran escala?

¿Cómo lidiamos con conjuntos de datos muy grandes que no caben en la RAM?

¿Qué es Mach 23 en millas por hora?

Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico

¿Existe una incrustación del espacio euclidiano en el espacio hamming?

¿Cómo puede Machine Learning ayudar a un desarrollador de Android?

¿Cómo funciona KNN?

¿Cuál es la mejor manera de aprender a usar LDA (asignación de dirichlet latente) con Python?

¿Qué es el aprendizaje automático?

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?

¿Cuáles son algunas aplicaciones del aprendizaje automático en la industria de la geología y la energía?

Web Analytics