¿Cómo se usa el aprendizaje automático en la extracción de información? La tecnología cambia la vida futura

La extracción de información (IE) es una tarea que tradicionalmente ha estado en la intersección de la recuperación de información y el procesamiento del lenguaje natural. Comprende la familia de tareas que requiere la selección de partes (desde palabras específicas hasta tramos de textos que abarcan oraciones) del texto de un documento. Por ejemplo, extraer entidades con nombre (NER) es una tarea bien conocida en la que un sistema tiene que extraer e identificar las palabras como nombres de persona, organización, producto, empresa, etc. Extraer cualquier entidad importante y vincularlas por una relación es un Problema extremadamente útil y sin resolver. Identificar entidades y relaciones es clave para poblar una base de conocimiento.

Tradicionalmente, muchas tareas de IE se modelaron como problemas de etiquetado de secuencias. El empleo de campos aleatorios condicionales [1] para la extracción de información es fundamental tanto en IE como en aprendizaje automático. Recientemente, las redes neuronales profundas han impulsado el estado del arte en casi todas las tareas de IE. Las combinaciones de capas de redes neuronales recurrentes (principalmente redes de memoria a corto plazo o LSTMS y redes recurrentes bloqueadas o GRU) y redes neuronales convolucionales han contribuido al rendimiento. Sin embargo, los CRF debido a su capacidad para decodificar globalmente la salida funcionan realmente bien con las capas DNN especificadas anteriormente para impulsar aún más el rendimiento. CRF-BiLSTM [2] se ha convertido en un sistema estándar para la mayoría de las tareas de IE.

El esquema de esquema universal [3] y las redes de memoria para tareas de IE son contribuciones clave recientes principalmente para construir bases de conocimiento.

Una mejor tecnología IE ha mejorado otras tareas posteriores y relacionadas, como la respuesta a preguntas donde las redes de puntero se utilizan para seleccionar tramos de texto (puntos de inicio y finalización del texto) como respuestas a las preguntas. El control de calidad como una inferencia sobre la base de conocimiento es otra dirección interesante reciente.

[1] Lafferty, John, Andrew McCallum y Fernando CN Pereira. “Campos aleatorios condicionales: modelos probabilísticos para segmentar y etiquetar datos de secuencia”. (2001)

[2] Huang, Zhiheng, Wei Xu y Kai Yu. “Modelos bidireccionales LSTM-CRF para etiquetado secuencial”. preimpresión arXiv arXiv: 1508.01991 (2015).

[3] Yao, Limin, “Esquema universal para la representación del conocimiento a partir de texto y datos estructurados” (2015). Tesis Doctorales Mayo 2014 – actual. 338.

Aprendizaje automáticoCiencia dedatosinformáticaInteligencia Artificial