¿Por qué las personas priorizan el método estadístico para el sistema de reconocimiento de entidades de nombre a la coincidencia exacta algorítmica? La tecnología cambia la vida futura

Primero, el diccionario que necesita en segundo plano estará en la mayoría de los casos incompleto. Es decir, es posible que no conozca de antemano todas las entidades nombradas que le interesan y todas las referencias posibles que puedan tener (por ejemplo, “Paris Hilton”, “Paris”, “Ms. Hilton”, “P. Hilton” , “Hiton”, etc.). Los métodos estadísticos pueden detectar una entidad con nombre incluso si no se conoce de antemano analizando su contexto (¿este contexto se ajusta al contexto de entidades conocidas?).

Segundo, especialmente en el dominio general (p. Ej., Entidades de Wikipedia), el grado de ambigüedad es lo suficientemente alto como para que termines generando muchos falsos positivos. Palabras como “página”, “escuela”, “república”, etc. pueden referirse a entidades con nombre y sin nombre. Una vez más, los métodos estadísticos son una forma eficiente de analizar el contexto de la entidad nombrada.

Sin embargo, la coincidencia exacta de cadenas podría funcionar en dominios cercanos, en los que conoce todas las entidades a las que apunta y para las cuales no hay ambigüedad. Puedo trabajar particularmente en los casos en que los nombres de las entidades se limitan a formas léxicas específicas (por ejemplo, RG4476 / 3, RG8475 / 5), donde puede usar expresiones regulares.

Otro problema adicional, que podría no estar previsto en su pregunta, es que, estrictamente hablando, la tarea de reconocimiento de entidad nombrada requiere no solo reconocer una entidad nombrada sino también clasificarla en un conjunto predefinido de clases. Por ejemplo, en la oración “Obama vive en Washington”, debe reconocer a “Obama” y “Washington” como entidades nombradas, y clasificarlas como “PERSONA” y “UBICACIÓN” respectivamente. Los métodos estadísticos analizarán el contexto y determinarán los tipos correctos según los casos que hayan visto. Tenga en cuenta que escribir no es una tarea trivial ya que, por ejemplo, “Washington”, dependiendo del contexto, puede referirse a múltiples entidades con nombre (por ejemplo, Washington DC o George Washington) con diferentes tipos (por ejemplo, LOCATION o PERSON).

AlgoritmosAprendizaje automáticoProcesamiento de lenguaje natural