TF-IDF por sí solo no le proporciona ninguna información semántica sobre un documento. Es decir que si una palabra es o no “clave” para un documento no es algo que pueda suponerse usando los valores TF-IDF.
¿Para qué se usa entonces? Se utiliza para distinguir un documento de otro para fines relacionados con la búsqueda. Puede hacer un ingenuo motor de búsqueda basado en búsquedas utilizando TF-IDF. Puede que no sea la mejor idea construir un clasificador usando esto porque cuando se trata de una clasificación basada en texto, podría ser más importante agrupar los documentos semánticamente que simplemente usando la fuerza de las palabras.
Una alternativa sería obtener palabras clave de otras técnicas, como Asignación de Dirichlet Latente, realizar TF-IDF en los documentos, luego agrupar según las palabras clave de TF-IDF y temas de LDA. Esta es una forma indirecta de hacerlo porque puede lograr mejores resultados simplemente usando la clasificación basada en LDA que combinando estos dos.
- ¿Cuáles son algunas aplicaciones del mundo real en las que es útil el aprendizaje incremental de algoritmos (aprendizaje automático)? ¿Se prefieren las SVM para tales aplicaciones?
- Cómo diseñar algoritmos de aprendizaje automático desde cero
- Cómo aprender a analizar algoritmos
- ¿Cómo aprenden los algoritmos de aprendizaje de refuerzo del juego de ajedrez a jugar bien, dado que cada movimiento no está etiquetado como bueno o malo, a diferencia del aprendizaje supervisado donde cada dato está etiquetado como bueno o malo?
- ¿Es posible simular / emular / codificar el poder de pensamiento de una CPU en una GPU?