Los tres métodos comunes para abordar la extracción de entidades (modelos estadísticos, listas de entidades y expresiones regulares) no han cambiado, pero la forma en que creamos el modelo estadístico está cambiando (más abajo). Sin embargo, para responder a su pregunta, el mejor método depende del perfil de la entidad que está buscando. Más específicamente:
a) Use expresiones regulares cuando la entidad puede ser definida por un patrón. Por ejemplo, los números de tarjetas de crédito son 16 dígitos que comienzan con un 4 (Visa), 5 (Mastercard), 6 (Discover) o 15 números que comienzan con un 34 o 37 (American Express). Las expresiones regulares pueden encontrar de manera confiable estas entidades.
b) Use listas de entidades cuando la lista de entidades sea conocida y finita (por ejemplo, una lista de tenistas profesionales de 2013-2014). Estas entidades se prestan a las listas de entidades, pero son inflexibles ya que la ortografía debe ser una coincidencia exacta. Utilice listas de entidades cuando la lista de entidades no sea ambigua. Una lista de medicamentos de venta libre de marca (Robitussin, Tylenol, Nyquil) es bastante inequívoca y se presta a las listas de entidades.
- ¿Cuál es el futuro del aprendizaje de refuerzo profundo? ¿Es una buena idea comenzar un doctorado ahora trabajando en ataques adversos en sistemas RL?
- ¿Desde dónde puedo aprender la implementación del aprendizaje automático en Python?
- ¿Cuáles son las distribuciones bayesianas anteriores y posteriores? ¿Cuáles son sus roles en las redes neuronales?
- Cómo calcular la cantidad óptima de datos de entrenamiento para un pronóstico de series de tiempo usando Python
- Cómo hacer una clasificación en tiempo real con CNN
c) Utilice el modelado estadístico (aprendizaje automático) para entidades que no puede enumerar exhaustivamente o que se superponen demasiado con las no entidades, el modelado estadístico (también conocido como aprendizaje automático) es mejor ya que es sensible al contexto. Por ejemplo, una lista de nombres de ciudades, incluyendo Independence (of Missouri), que también es un nombre común, y Paris, que también es el nombre de una persona, generará demasiados falsos positivos.
En la categoría de modelado estadístico, los enfoques tradicionales de aprendizaje automático para NER son máquinas de vectores de soporte estructurado (SVM), campos aleatorios condicionales y perceptrón estructurado. Los enfoques más recientes utilizan variantes de uso de redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN).
Si está buscando probar estos métodos, puede obtener una evaluación de software de Rosette cuyo SDK le permite al usuario agregar o modificar las listas de entidades y expresiones regulares y un kit de capacitación de campo para (1) entrenar modelos (para extraer personas, ubicaciones, organizaciones) o (2) optimizar la precisión de Rosette en conjuntos de datos particulares o (3) agregar nuevos tipos de entidades estadísticas. Tenga en cuenta que Rosette también viene como una API web que genera resultados utilizando estos tres métodos, pero no puede cambiar el comportamiento.
[Descargo de responsabilidad, trabajo para Basis Technology que produce Rosette SDK y Rosette API.]