Muy simple: a veces las palabras que aparecen con frecuencia son realmente indicativas de la tarea que está tratando de resolver. Aquí, la reducción efectiva de su impacto funciona contra el modelo.
Por ejemplo: digamos que está tratando de detectar declaraciones de creencias. Es decir, cuán fuertemente alguien cree la oración que ha dicho. La inclusión de un número indebido de palabras amortiguadoras como “me gusta, y, o, probablemente”, etc., es probablemente indicativo de que la persona que dice algo realmente no cree lo que está diciendo a pesar de que son palabras muy comunes.
También hay muchos casos en los que esto significa que tienes un problema con la falta de coincidencia de dominio. Crecimiento, por ejemplo, es un término muy común en inglés general, pero tiene un significado muy específico en finanzas. Aquí, la porción IDF puede eliminar en gran medida esta señal.
- ¿Cuál es el código de aprendizaje automático más pequeño que se podría escribir en Java?
- ¿Cómo afectaría la homo / heteroscedasticidad al análisis de regresión?
- ¿Necesita aprender CSE (motor de ciencias de la computación) para aprender inteligencia artificial, o hay cursos de ingeniería separados para IA y aprendizaje automático?
- ¿Qué modelo / algoritmo de ML utilizo?
- ¿Hay alguna universidad en la India que ofrezca cursos a corto plazo sobre aprendizaje automático / ciencia de datos?
Alternativamente, si alguien está explicando un término de ciencias de la computación y usa con frecuencia los términos ‘y’ y ‘o’ para transmitir significado, puede perder esta señal debido a un término IDF de cadena.
Aquí hay innumerables otros ejemplos, pero siempre recuerde que cualquier procesamiento previo que realice es eliminar la señal. A veces eso es apropiado y estás eliminando la señal no importante, a veces te has equivocado totalmente aquí y estás eliminando la señal que más te importa.