Primero, el diccionario que necesita en segundo plano estará en la mayoría de los casos incompleto. Es decir, es posible que no conozca de antemano todas las entidades nombradas que le interesan y todas las referencias posibles que puedan tener (por ejemplo, “Paris Hilton”, “Paris”, “Ms. Hilton”, “P. Hilton” , “Hiton”, etc.). Los métodos estadísticos pueden detectar una entidad con nombre incluso si no se conoce de antemano analizando su contexto (¿este contexto se ajusta al contexto de entidades conocidas?).
Segundo, especialmente en el dominio general (p. Ej., Entidades de Wikipedia), el grado de ambigüedad es lo suficientemente alto como para que termines generando muchos falsos positivos. Palabras como “página”, “escuela”, “república”, etc. pueden referirse a entidades con nombre y sin nombre. Una vez más, los métodos estadísticos son una forma eficiente de analizar el contexto de la entidad nombrada.
Sin embargo, la coincidencia exacta de cadenas podría funcionar en dominios cercanos, en los que conoce todas las entidades a las que apunta y para las cuales no hay ambigüedad. Puedo trabajar particularmente en los casos en que los nombres de las entidades se limitan a formas léxicas específicas (por ejemplo, RG4476 / 3, RG8475 / 5), donde puede usar expresiones regulares.
- ¿Cuáles son algunos libros excelentes sobre la programación de algoritmos ARM?
- Cómo ordenar una matriz de vectores de pares, es decir, vector <par v [N], en C ++
- En el software de servidor web, ¿alguna vez se prefiere la ordenación en lugar de la clasificación rápida, porque un ataque DoS podría desencadenar el comportamiento de clasificación rápida en el peor de los casos?
- ¿Deep Blue fue un algoritmo o una IA o ambos?
- Cómo encontrar la menor supercadena de 2 subcadenas
Otro problema adicional, que podría no estar previsto en su pregunta, es que, estrictamente hablando, la tarea de reconocimiento de entidad nombrada requiere no solo reconocer una entidad nombrada sino también clasificarla en un conjunto predefinido de clases. Por ejemplo, en la oración “Obama vive en Washington”, debe reconocer a “Obama” y “Washington” como entidades nombradas, y clasificarlas como “PERSONA” y “UBICACIÓN” respectivamente. Los métodos estadísticos analizarán el contexto y determinarán los tipos correctos según los casos que hayan visto. Tenga en cuenta que escribir no es una tarea trivial ya que, por ejemplo, “Washington”, dependiendo del contexto, puede referirse a múltiples entidades con nombre (por ejemplo, Washington DC o George Washington) con diferentes tipos (por ejemplo, LOCATION o PERSON).