Lo que intenta hacer generalmente se llama extracción de información abierta (OIE).
La OIE es la tarea de extraer declaraciones o proposiciones del texto en lenguaje natural, generalmente en forma de triples, más fáciles de manejar por computadoras. Por ejemplo, en la oración “Albert Einstein nació en Ulm”, un sistema de la OIE podría extraer (“Albert Einstein”, “nació en”, “Ulm”). Un triple consiste en una relación (“nació en”), un sujeto (“Albert Einstein”) y un objeto o argumento (“Ulm”).
Es importante comprender que los componentes del triple no están desambigados (es decir, no están vinculados a una base de conocimiento). Es, en el ejemplo anterior, no habría indicación de a qué se refieren “Albert Einstein” o “nacido en”. Además, en principio, no existe un sentido de realidad (aunque algunos sistemas como OLLIE trabajaron en esa dirección). Por ejemplo, en una oración como, “Si Mary estudia mucho, aprobará el examen”, un sistema de la OIE extraerá (“Mary”, “estudia”, “difícil”) y (“ella”, “aprobará”, “el examen”). En principio, la OIE solo extrae y estructura proposiciones que no deben considerarse hechos verdaderos sin un procesamiento posterior adecuado.
- ¿Las máquinas de vectores de soporte vienen en modelos paramétricos o no paramétricos y por qué?
- ¿Cuáles son las diferencias entre la red neuronal artificial (informática) y la red neuronal biológica?
- ¿Cuál es la segunda generación de redes neuronales?
- ¿Es realmente posible comenzar una carrera seria de IA / ML con el objetivo final de trabajar en un lugar como OpenAI, Google o DeepMind a través del autoestudio?
- ¿Mejor ejecución de trabajos de Machine Learning directamente desde Pyspark o integración de scikit-learn en, a través del método de paralelización SparkContext?
Se puede pensar en la OIE como el primer paso hacia una amplia gama de aplicaciones de comprensión del lenguaje natural, que necesitan identificar y estructurar proposiciones en una primera fase (por ejemplo, la construcción de la base de conocimiento a partir de texto como NELL). Las extracciones de la OIE también se pueden utilizar para aplicaciones de usuario, como la búsqueda estructurada.
Hay varios sistemas OIE que puede usar de forma inmediata, como Reverb, OLLIE, ClausIE (en el que trabajé) o Open IE 4.0.
Se podría agregar información semántica al sujeto u objeto mediante la vinculación de entidades (aquí una descripción general que escribí), o la relación a través de la extracción de relaciones, una tarea más difícil que todavía es un tema muy candente en la comunidad de investigación de la PNL.