¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?

Muy simple: a veces las palabras que aparecen con frecuencia son realmente indicativas de la tarea que está tratando de resolver. Aquí, la reducción efectiva de su impacto funciona contra el modelo.

Por ejemplo: digamos que está tratando de detectar declaraciones de creencias. Es decir, cuán fuertemente alguien cree la oración que ha dicho. La inclusión de un número indebido de palabras amortiguadoras como “me gusta, y, o, probablemente”, etc., es probablemente indicativo de que la persona que dice algo realmente no cree lo que está diciendo a pesar de que son palabras muy comunes.

También hay muchos casos en los que esto significa que tienes un problema con la falta de coincidencia de dominio. Crecimiento, por ejemplo, es un término muy común en inglés general, pero tiene un significado muy específico en finanzas. Aquí, la porción IDF puede eliminar en gran medida esta señal.

Alternativamente, si alguien está explicando un término de ciencias de la computación y usa con frecuencia los términos ‘y’ y ‘o’ para transmitir significado, puede perder esta señal debido a un término IDF de cadena.

Aquí hay innumerables otros ejemplos, pero siempre recuerde que cualquier procesamiento previo que realice es eliminar la señal. A veces eso es apropiado y estás eliminando la señal no importante, a veces te has equivocado totalmente aquí y estás eliminando la señal que más te importa.

La motivación detrás del uso de IDF como factor de ponderación en TF-IDF es:
1. para suprimir los términos más frecuentes en el conjunto de datos. (por ejemplo, detener palabras), si aparece una palabra en todo el documento del corpus, entonces idf es 0.
2. dar importancia a los términos que aparecen en pocos documentos (por ejemplo, si una palabra aparece en solo 2 documentos entre 100, entonces idf es [math] log (100/2) [/ math]).
Si estas dos condiciones fallan, es decir
1. Si aparecen palabras importantes en todo el documento en su corpus, y la frecuencia de estas palabras es importante para su tarea.
2. Si la frecuencia de las palabras raras solo aparecen en pocos documentos de su corpus, no son muy útiles para su tarea.
entonces, naturalmente, TF-IDF no será tan útil como TF

Puedo pensar en una razón clave: las IDF muchas veces ** no ** se calculan a partir de un corpus lo suficientemente grande.

Solución: si su corpus no es lo suficientemente grande, considere los recursos públicos como Google ngram corpus para encontrar IDF para su palabra. Esto tiene algún error debido a las posibles diferencias de dominio en su corpus y la menor cantidad de documentos en su corpus. Sin embargo, ese puntaje IDF es una aproximación mucho mejor de la rareza de la palabra que lo que se calcula a partir de su corpus muy pequeño.