¿Por qué las personas priorizan el método estadístico para el sistema de reconocimiento de entidades de nombre a la coincidencia exacta algorítmica?

Primero, el diccionario que necesita en segundo plano estará en la mayoría de los casos incompleto. Es decir, es posible que no conozca de antemano todas las entidades nombradas que le interesan y todas las referencias posibles que puedan tener (por ejemplo, “Paris Hilton”, “Paris”, “Ms. Hilton”, “P. Hilton” , “Hiton”, etc.). Los métodos estadísticos pueden detectar una entidad con nombre incluso si no se conoce de antemano analizando su contexto (¿este contexto se ajusta al contexto de entidades conocidas?).

Segundo, especialmente en el dominio general (p. Ej., Entidades de Wikipedia), el grado de ambigüedad es lo suficientemente alto como para que termines generando muchos falsos positivos. Palabras como “página”, “escuela”, “república”, etc. pueden referirse a entidades con nombre y sin nombre. Una vez más, los métodos estadísticos son una forma eficiente de analizar el contexto de la entidad nombrada.

Sin embargo, la coincidencia exacta de cadenas podría funcionar en dominios cercanos, en los que conoce todas las entidades a las que apunta y para las cuales no hay ambigüedad. Puedo trabajar particularmente en los casos en que los nombres de las entidades se limitan a formas léxicas específicas (por ejemplo, RG4476 / 3, RG8475 / 5), donde puede usar expresiones regulares.

Otro problema adicional, que podría no estar previsto en su pregunta, es que, estrictamente hablando, la tarea de reconocimiento de entidad nombrada requiere no solo reconocer una entidad nombrada sino también clasificarla en un conjunto predefinido de clases. Por ejemplo, en la oración “Obama vive en Washington”, debe reconocer a “Obama” y “Washington” como entidades nombradas, y clasificarlas como “PERSONA” y “UBICACIÓN” respectivamente. Los métodos estadísticos analizarán el contexto y determinarán los tipos correctos según los casos que hayan visto. Tenga en cuenta que escribir no es una tarea trivial ya que, por ejemplo, “Washington”, dependiendo del contexto, puede referirse a múltiples entidades con nombre (por ejemplo, Washington DC o George Washington) con diferentes tipos (por ejemplo, LOCATION o PERSON).

More Interesting

¿Cuál es la complejidad temporal de la solución del problema del vendedor ambulante mediante la optimización de colonias de hormigas?

Rendimiento del software: ¿los algoritmos de cálculo se ejecutarán más rápido cuando se implementen en Node.js en lugar de C?

Gráfico distribuido: ¿Cuál es la forma más efectiva de distribuir los nodos de un gráfico en diferentes servidores en un sistema distribuido?

¿Cómo no es aplicable el algoritmo de Dijkstra a los gráficos con pesos negativos? ¿No podemos simplemente agregar alguna constante a cada peso para que cada peso sea positivo, y luego aplicar el algoritmo de Dijkstra para encontrar el camino más corto?

¿Cuáles son los mejores algoritmos de Real Space Renormalization Group?

¿Cuál es el mejor algoritmo de aprendizaje automático sin supervisión para la segmentación de imágenes basada en color?

¿Qué algoritmo se utiliza en los puntos de calificación para las clasificaciones de cricket ICC?

Ahora he leído sobre algoritmos y estructuras de datos como Al Klein me dijo. ¿Qué lenguaje de programación debo aprender?

¿Cuál es el algoritmo de búsqueda utilizado por el motor de búsqueda de Google? ¿Cuál es su complejidad?

¿Qué debo saber sobre la programación de chat?

¿Qué algoritmos usa Google en la geocodificación y búsqueda?

Cómo argumentar la corrección del tipo radix

¿Cómo se calculan los puntos de clasificación para un desafío en CodeEval?

¿La recursividad es más rápida que los bucles en MATLAB?

Cómo imprimir todas las permutaciones de una cadena tanto de forma iterativa como recursiva