¿Por qué necesitamos el algoritmo de derivación de porter en Python?

Para la búsqueda de texto, la respuesta de Porter encuentra buenas aproximaciones a los tallos de las palabras, sin tener realmente una base de datos de los términos y palabras reales.

Por ejemplo, convierte “stemming” y “stemmed” en “stem”; si aplica la respuesta de Porter tanto a la consulta de búsqueda como al texto, podrá encontrarlos todos. De lo contrario, si el texto dice “He derivado algunas palabras”, y el usuario está buscando “derivar”, no encontrará ese fragmento de texto.

Y el hecho de que sea simplemente una aproximación (la “tentación” se deriva de “temptat” – Porter Stemmer Online) no es realmente tan problemático, siempre y cuando sea solo una representación interna, a quien le importa que no tenga sentido, siempre que sea similar las palabras se derivan al mismo sinsentido 🙂

PD Por “búsqueda de texto”, me refiero a mucho más que solo buscar, por ejemplo, lo he usado para un clasificador bayesiano.

PPS Por supuesto, solo funciona en texto en inglés, es decir, las reglas que utiliza son específicas de las palabras en inglés.

Related Content

¿Pueden los algoritmos predecir el futuro?

¿Qué es un árbol y un gráfico en las estructuras de datos?

¿Recomendaría usar HackerRank para mejorar las habilidades del algoritmo? ¿Por qué?

Cómo explicar la prueba de corrección del algoritmo de árbol de expansión mínimo prims a un laico

¿Cómo explicará el algoritmo del cuadrado medio en la estructura de datos hash?

¿Cuál es el enfoque de IA para resolver el Cubo de Rubik aleatoriamente barajado?

¿La democratización de los algoritmos de aprendizaje automático es una bendición o un peligro para los profesionales no expertos?

More Interesting

Como programador autodidacta de 24 años, ¿debo comenzar con la programación competitiva o el desarrollo web?

¿Qué es el WordNet? ¿Cuál es la relación entre WordNet y el algoritmo Leacock & Chodorow?

Cómo hacer un método que devuelva un arrayList que ha ordenado el número de Strings en cada fila del archivo

Cómo averiguar si existen dos elementos en una matriz ordenada cuya suma es igual a algún número predefinido

¿Cómo se fragmentan los archivos en el hadoop en 64 MB o 128 MB? ¿Cuál es el algoritmo utilizado para fragmentar los archivos?

¿Qué algoritmo está detrás de la convolución en MATLAB?

¿Cuál es el mejor algoritmo para ocultar datos en texto?

Cómo escribir un script de fuerza bruta, en Eclipse

¿Somos solo un algoritmo?

¿Cómo se debe verificar si él / ella ha entendido el algoritmo de Paxos?

¿Por qué la resta es la que consume menos tiempo? (La pregunta contiene una suposición incorrecta)

¿Es un nodo raíz un nodo interno en una estructura de datos de árbol?

¿Qué es lo más importante para las empresas de software: código abierto, proyectos extracurriculares o habilidades algorítmicas (habilidades de programación competitiva)?

¿De qué manera aprender sobre algoritmos mejora sus habilidades de programación?

¿Por qué es necesario conocer la complejidad temporal de un programa?

Web Analytics