¿TFIDF es una métrica para medir qué tan informativa es una palabra o un algoritmo de aprendizaje automático?

TF-IDF por sí solo no le proporciona ninguna información semántica sobre un documento. Es decir que si una palabra es o no “clave” para un documento no es algo que pueda suponerse usando los valores TF-IDF.

¿Para qué se usa entonces? Se utiliza para distinguir un documento de otro para fines relacionados con la búsqueda. Puede hacer un ingenuo motor de búsqueda basado en búsquedas utilizando TF-IDF. Puede que no sea la mejor idea construir un clasificador usando esto porque cuando se trata de una clasificación basada en texto, podría ser más importante agrupar los documentos semánticamente que simplemente usando la fuerza de las palabras.

Una alternativa sería obtener palabras clave de otras técnicas, como Asignación de Dirichlet Latente, realizar TF-IDF en los documentos, luego agrupar según las palabras clave de TF-IDF y temas de LDA. Esta es una forma indirecta de hacerlo porque puede lograr mejores resultados simplemente usando la clasificación basada en LDA que combinando estos dos.

More Interesting

¿Necesitamos un algoritmo 10 veces más rápido o una máquina 10 veces más rápida? Da una razón para justificar tu respuesta.

Cómo encontrar un árbol de expansión T con el mínimo peso máximo de trayectoria para 2 vértices en G

¿Cuáles son algunos de sus mejores algoritmos de C ++ o C que está orgulloso de haber escrito?

¿Cuál será el código C si quiero imprimir todos los elementos ingresados ​​en orden inverso sin usar matrices?

¿En qué tipos de gráfico DFS y BFS producirán el mismo árbol (misma fuente) independientemente de la secuencia de visitas de los vecinos?

En la tercera edición de 'Introducción a los algoritmos', ¿por qué comprar acciones es un problema de subarrays máximos?

¿Cuáles son algunas optimizaciones comunes que los clientes de GPS como Google Maps usan además de los algoritmos elementales de ruta más corta como la búsqueda A *?

¿Dónde puedo encontrar un algoritmo de relevancia marginal máxima en Python para la eliminación de redundancia en dos documentos?

¿Cuáles son los diversos métodos para implementar una pila utilizando la (s) lista (s) vinculada (s) y qué método es el mejor?

¿Es mejor aprender primero los algoritmos y luego buscar problemas o simplemente elegir un problema aleatorio y luchar?

¿Hay alguien que enseñe estructuras de datos y algoritmos aquí en Hyderabad?

¿Qué criterios se utilizan para contar un buen algoritmo?

Dada una cuadrícula N-por-M llena de números positivos, ¿cuál es el mejor programa para encontrar la ruta de arriba a la izquierda a la derecha que minimiza la suma de todos los números?

¿Cuál es el libro perfecto sobre CPP y algoritmos?

¿Cuántas matemáticas necesito para aprender sobre estructuras de datos y algoritmos?