¿Por qué TF (frecuencia de término) a veces da mejores puntuaciones F que TF-IDF para la clasificación de texto?

Muy simple: a veces las palabras que aparecen con frecuencia son realmente indicativas de la tarea que está tratando de resolver. Aquí, la reducción efectiva de su impacto funciona contra el modelo.

Por ejemplo: digamos que está tratando de detectar declaraciones de creencias. Es decir, cuán fuertemente alguien cree la oración que ha dicho. La inclusión de un número indebido de palabras amortiguadoras como “me gusta, y, o, probablemente”, etc., es probablemente indicativo de que la persona que dice algo realmente no cree lo que está diciendo a pesar de que son palabras muy comunes.

También hay muchos casos en los que esto significa que tienes un problema con la falta de coincidencia de dominio. Crecimiento, por ejemplo, es un término muy común en inglés general, pero tiene un significado muy específico en finanzas. Aquí, la porción IDF puede eliminar en gran medida esta señal.

Alternativamente, si alguien está explicando un término de ciencias de la computación y usa con frecuencia los términos ‘y’ y ‘o’ para transmitir significado, puede perder esta señal debido a un término IDF de cadena.

Aquí hay innumerables otros ejemplos, pero siempre recuerde que cualquier procesamiento previo que realice es eliminar la señal. A veces eso es apropiado y estás eliminando la señal no importante, a veces te has equivocado totalmente aquí y estás eliminando la señal que más te importa.

Aprendizaje automáticoClasificación

¿Puede ingresar al programa de doctorado CS de nivel superior / siguiente sin publicación, suponiendo que tenga una experiencia de investigación decente?

¿Cuáles son los modelos actuales de análisis de sentimiento de arte independientemente de la efectividad?

¿Cuáles son algunas aplicaciones de la vida real del aprendizaje automático además de las aplicaciones relacionadas con la web?

¿Qué algoritmos de optimización son buenos candidatos para la paralelización con MapReduce?

¿Cuál es el estado del arte en reconocimiento de voz en 2016?

¿Podrá una sola persona crear un éxito de taquilla de Hollywood usando solo una computadora?

La motivación detrás del uso de IDF como factor de ponderación en TF-IDF es:
1. para suprimir los términos más frecuentes en el conjunto de datos. (por ejemplo, detener palabras), si aparece una palabra en todo el documento del corpus, entonces idf es 0.
2. dar importancia a los términos que aparecen en pocos documentos (por ejemplo, si una palabra aparece en solo 2 documentos entre 100, entonces idf es [math] log (100/2) [/ math]).
Si estas dos condiciones fallan, es decir
1. Si aparecen palabras importantes en todo el documento en su corpus, y la frecuencia de estas palabras es importante para su tarea.
2. Si la frecuencia de las palabras raras solo aparecen en pocos documentos de su corpus, no son muy útiles para su tarea.
entonces, naturalmente, TF-IDF no será tan útil como TF

Ali Abdulhay

Puedo pensar en una razón clave: las IDF muchas veces ** no ** se calculan a partir de un corpus lo suficientemente grande.

Solución: si su corpus no es lo suficientemente grande, considere los recursos públicos como Google ngram corpus para encontrar IDF para su palabra. Esto tiene algún error debido a las posibles diferencias de dominio en su corpus y la menor cantidad de documentos en su corpus. Sin embargo, ese puntaje IDF es una aproximación mucho mejor de la rareza de la palabra que lo que se calcula a partir de su corpus muy pequeño.

Ali Abdulhay

More Interesting

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Cuáles son los pros y los contras del aprendizaje en línea y fuera de línea? ¿En qué escenarios son útiles cada uno?

¿Qué problemas o conjuntos de datos existen cuando usar el impulso da mejores resultados que usar un SGD simple?

¿Cuál es la medida cuantitativa sofisticada de la similitud de textos además de usar la similitud de coseno?

¿Por qué usar Kohonen SOMs sobre K-means, o viceversa?

¿Cómo ser bueno en la programación de Python si quiero aprender el aprendizaje automático? ¿Son estos problemas diferentes de la programación competitiva?

¿Cuáles son algunos modelos matemáticos o técnicas estadísticas que son útiles para los científicos que trabajan con grandes datos?

Cómo mejorar mi escritura para pasante de aprendizaje automático

¿Qué son los núcleos de difusión?

¿TF-IDF está categorizado como una selección de características o una extracción de características?