En la clasificación de texto, ¿hay alguna manera de evitar los mismos resultados para ‘hacer adición’ y adición?

Si. Los sistemas de clasificación de texto y los motores de búsqueda aplican el preprocesamiento de múltiples etapas a los datos de texto para tratar estos problemas:

La tokenización separa un grupo de palabras en componentes individuales.
La normalización pone cada palabra en una forma normal para hacer que los datos sean más homogéneos:

La normalización del texto elimina la puntuación, las variaciones de mayúsculas y minúsculas, los acentos …
La normalización lingüística apunta a agrupar semánticamente palabras similares. La derivación reemplaza palabras similares por sus raíces comunes. La lematización es una variante de Stemming.

El filtrado elimina las palabras que tienen una frecuencia muy alta y es probable que sean irrelevantes para la consulta / transportan poca información. Esto puede incluir artículos, palabras de enlace, pronombres …

“Do” probablemente se eliminaría mediante el filtrado.

Related Content

¿Cuál es el grado de una ecuación polinómica que tendría una raíz constructiva real positiva de esta forma, [math] \ sqrt {2} + \ sqrt [4] {3} [/ math]?

¿Cuáles son algunas de las áreas en ciencias de la computación que involucran una buena cantidad de matemáticas y también tienen aplicaciones industriales?

Estoy interesado en la robótica. ¿Debo aprender matemáticas si quiero ser programador?

¿Cómo se puede lograr acceso aleatorio en O (log n)?

Cómo entender la pregunta para poder intentar resolverla

¿Cuáles son algunos temas imprescindibles en matemáticas discretas y probabilidad de programación competitiva?

¿De qué trata el libro Big Data Baseball?

More Interesting

Aunque amo CS y la programación, soy malo en matemáticas. Mi lógica para desarrollar programas es débil. ¿Qué debo hacer para mejorar mis habilidades lógicas y dónde puedo aprender las matemáticas esenciales para la programación?

¿Qué importancia tiene UPTU para la universidad de informática de MNN en Allahabad?

¿Cuáles son algunas limitaciones de la teoría de detección de señales?

¿Qué temas o campos en el aprendizaje automático o la minería de datos requieren matemáticas de alto nivel?

Para los usuarios, ¿se está volviendo Facebook más valioso, útil y digno de más tiempo invertido o menos? ¿Por qué? ¿Hay alguna evidencia de Facebook de que la Ley de Metcalfe es cierta (para n usuarios, el valor de la red aumenta en nxn)?

Si tengo una prueba potencial de que P = NP, ¿con quién puedo compartirla para que no me juzguen?

¿Cómo funciona el proceso de eliminación en una lista vinculada? ¿Es solo eliminando la referencia del nodo? ¿Qué mecanismo se utiliza para disponer un nodo?

¿P = NP sería algo bueno?

¿Cuáles son los requisitos previos (matemáticos, de programación, etc.) que uno debe tener para convertirse en ingeniero de control?

¿Existe la probabilidad en la computadora?

¿Cuál es el significado del lema de aislamiento?

¿Cuál es la ecuación matemática correcta para el siguiente problema informático?

¿Cómo se ve la integridad de NP?

¿Cuál es la diferencia entre una cubierta abierta y una subcubierta finita en relación con la compacidad?

¿Qué problema resolvió Alan Turing y cómo eso lo llevó a ser etiquetado como el 'Padre de la Informática'?

Web Analytics