En la minería de texto, ¿por qué deberíamos eliminar el término disperso de la matriz de términos del documento?

En cualquier proceso de minería, tratamos de determinar aquellos nodos (palabras en el corpus, vértices en el gráfico) que simplemente están presentes debido a alguna coincidencia (referencia a alguna actividad en el pasado) pero que no influyen en el texto actual, tienen muy poca frecuencia en el corpus o gráfico. Si procesamos el análisis con respecto a los sentimientos promedio, la polaridad promedio o la entropía del texto, esas palabras menos frecuentes afectan los resultados, ya que son valores atípicos para el texto en foco. Podemos pensar en esto como la presencia de valores atípicos en la muestra que afectan el valor medio de la muestra, como

1,1,1,1,1,2,2,3,3,3,3,3,3,3,4,4,4,4,4,4,5,5,5,5,6, 6,6,6,6,7,7,7,7,7,8,8,9,9,15,19

si toma la media, su media incluirá 15, 19 que son valores atípicos, mientras que la mediana no incluye valores atípicos. Dado que la entropía, el promedio, TF-IDF son todas medidas similares a la media, debemos eliminar el término disperso de la matriz de términos del documento.

Aprendizaje automáticoMinería de datosProcesamiento de lenguaje natural

¿Soy un desarrollador de dinosaurios si no uso Github, no conozco CI / CD y docker y solo conozco el aprendizaje profundo de la palabra de moda?

¿Qué es la curva de recuperación de precisión (PR)?

¿Se puede solicitar un doctorado en aprendizaje automático sin conocimientos y habilidades de CompSci? ¿Se puede aprender en el trabajo?

¿Cuál es la posibilidad de que un humano gane el juego de entropía?

¿Qué es la ciencia de datos, big data y machine learning?

¿Qué tan matemática puede ser la informática?

En la minería de texto, cuando utiliza un enfoque de bolsa de palabras, ignorar los términos que tienen una frecuencia de documento inferior a un umbral determinado puede ayudar a la generalización y evitar el sobreajuste.
Piénselo de esta manera: supongamos que tiene un gran corpus de documentos. Tendrás algunas palabras que aparecen, digamos, solo una vez. Dado que aparecen solo una vez, siempre están asociados a una clase u otra (en un problema de clasificación binaria). Luego se sienta allí y se pregunta si, si tuviera más documentos con esa palabra, aún observaría esa asociación fuerte, o si la asociación no se generalizaría. Puede generalizar esa idea y hacer la misma pregunta para umbrales de 2, 5, 10 …
Básicamente, está buscando un umbral mínimo que mejore la generalización de su modelo. Aquí es donde, generalmente, ayuda eliminar palabras con baja frecuencia.
Debe considerar este umbral como un hiperparámetro y probar diferentes configuraciones. Por lo general, intento 1, 2, 3, 5, 10, 20 y tengo una idea de cómo cambia el rendimiento.

P Sushant Naidu

More Interesting

¿Cuáles son las características de HOG en visión artificial en términos simples?

¿Cuáles son los conjuntos de datos canónicos de aprendizaje automático utilizados como punto de referencia para demostrar un nuevo método?

¿Cuál es la diferencia entre TensorFlow y TensorFlow lite?

Cómo aumentar mis posibilidades de ser seleccionado en un programa de doctorado en aprendizaje automático o inteligencia artificial

¿Por qué el aprendizaje de refuerzo (profundo) no es adecuado o se usa más para resolver problemas de optimización combinatoria?

¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?

Cómo escribir un algoritmo para regresión logística paralela en Java

¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Por qué alguien querría usar el refuerzo sobre el apilamiento?