En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

En cualquier proceso de minería, tratamos de determinar aquellos nodos (palabras en el corpus, vértices en el gráfico) que simplemente están presentes debido a alguna coincidencia (referencia a alguna actividad en el pasado) pero que no influyen en el texto actual, tienen muy poca frecuencia en el corpus o gráfico. Si procesamos el análisis con respecto a los sentimientos promedio, la polaridad promedio o la entropía del texto, esas palabras menos frecuentes afectan los resultados, ya que son valores atípicos para el texto en foco. Podemos pensar en esto como la presencia de valores atípicos en la muestra que afectan el valor medio de la muestra, como

1,1,1,1,1,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,6, 6,6,6,6,7,7,7,7,7,8,8,9,9,15,19

si toma la media, su media incluirá 15, 19 que son valores atípicos, mientras que la mediana no incluye valores atípicos. Dado que la entropía, el promedio, TF-IDF son todas medidas similares a la media, debemos eliminar el término disperso de la matriz de términos del documento.

En la minería de texto, cuando utiliza un enfoque de bolsa de palabras, ignorar los términos que tienen una frecuencia de documento inferior a un umbral determinado puede ayudar a la generalización y evitar el sobreajuste.
Piénselo de esta manera: supongamos que tiene un gran corpus de documentos. Tendrás algunas palabras que aparecen, digamos, solo una vez. Dado que aparecen solo una vez, siempre están asociados a una clase u otra (en un problema de clasificación binaria). Luego se sienta allí y se pregunta si, si tuviera más documentos con esa palabra, aún observaría esa asociación fuerte, o si la asociación no se generalizaría. Puede generalizar esa idea y hacer la misma pregunta para umbrales de 2, 5, 10 …
Básicamente, está buscando un umbral mínimo que mejore la generalización de su modelo. Aquí es donde, generalmente, ayuda eliminar palabras con baja frecuencia.
Debe considerar este umbral como un hiperparámetro y probar diferentes configuraciones. Por lo general, intento 1, 2, 3, 5, 10, 20 y tengo una idea de cómo cambia el rendimiento.

More Interesting

¿Cuáles son las características de HOG en visión artificial en términos simples?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Cuál es la diferencia entre TensorFlow y TensorFlow lite?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Por qué el aprendizaje de refuerzo (profundo) no es adecuado o se usa más para resolver problemas de optimización combinatoria?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

Cómo escribir un algoritmo para regresión logística paralela en Java

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Por qué alguien querría usar el refuerzo sobre el apilamiento?

¿Por qué es importante la clasificación en papel de ImageNet con redes neuronales convolucionales profundas?

¿Qué piensa Yoshua Bengio sobre la idea de un algoritmo de aprendizaje único?

Cómo convertir un algoritmo de entrenamiento de redes neuronales realmente poderoso en un producto comercial

¿Qué son los componentes del procesamiento del lenguaje natural?

¿Todavía es necesario aprender LDA (distribución de Dirichlet latente)?