¿Alguien ha tratado de usar algoritmos de procesamiento de lenguaje natural en jerga legal que aproveche la estructura del documento?

Sí, tienen. [ACTUALIZACIÓN: Vea también un nuevo ejemplo, en un comentario a continuación.]

Recuerdo a Jean-Baptiste Soufron, mejor conocido por sus esfuerzos defendiendo el intercambio de archivos entre pares en los tribunales franceses como abogado de la Association des Audionautes, y me explicó uno de esos esfuerzos en una fiesta en 2005 o 2006. Implicaba masticar a través de masas de casos anteriores que aplican una regla para predecir cómo debería aplicarse en un caso hipotético nuevo; por ejemplo, ver cómo los casos pasados ​​con respecto a una ordenanza de ruido pesaron la intensidad del sonido (en decibelios) y otros factores. O algo así.

Pasé unos minutos en este momento tratando de encontrar signos de ese trabajo en la Web, y fracasé, pero encontré “Jurix”, una “base para sistemas basados ​​en conocimiento legal”, que parece ser una asociación académica con una conferencia anual. lleno de trabajos de investigación. Si mira los títulos de la conferencia de este año, encontrará que varios de ellos están específicamente relacionados con el procesamiento del lenguaje natural: http://www.jurix.nl/?p=197

Entonces esa es una buena pista. Tenga en cuenta que este es un problema difícil (incluso analizar un artículo de matemáticas es un problema sin resolver, y la jerga legal admite ciertas falsificaciones verbales que las matemáticas no lo hacen), por lo que el tema tendrá una literatura completa y no un solo documento que lo clave. Eso significa: (a) descubrir que la literatura es un proyecto en sí mismo, siguiendo las citas y otras conexiones para encontrar un amplio conjunto de buenos documentos lo mejor que pueda; (b) si puede resolver un problema determinado dependerá de qué información desea extraer, con qué tipo de exhaustividad y qué tipo de precisión, y diferentes problemas requerirán una batería de diferentes técnicas de diferentes documentos. No habrá un analizador de jerga legal del Santo Grial, no antes de que descubramos mucho más sobre la IA en general.

Pero si solo desea leer algunos ejemplos para tener una idea rápida de lo que puede hacer el estado del arte, apuesto a que la conferencia es un buen lugar para comenzar.

Su pregunta se refiere a documentos contractuales, a diferencia de otros textos legales no estructurados, por ejemplo, jurisprudencia, etc.

La respuesta corta es no. En contraste con los esfuerzos sustanciales para analizar las leyes públicas y la jurisprudencia no estructuradas, hay muy poco progreso tangible en el área de los contratos privados.

Creo que hay dos razones para esto: (1) analizar los documentos del contrato requiere una amplia experiencia en el dominio de las convenciones informales que los abogados contratados y los empresarios han adoptado para la estructura y el contenido de los documentos, y (2) los “datos”, es decir, los contratos, generalmente se consideran información privada y confidencial, y no están disponibles para los investigadores sin un mandato de la gerencia corporativa para exponerlos a este tipo de esfuerzo de trabajo.

Si analiza el tema, es probable que encuentre muchas herramientas que afirman ser capaces de extraer datos estructurales y semánticos de los contratos, pero en mi experiencia no alcanzan a capturar los tipos de datos que pueden responder a las preguntas del mundo real que las empresas tienen sobre sus acuerdos. Además, muchas de las llamadas soluciones en esta área están lamentablemente detrás de la curva en términos de tecnología, lo que requiere inversiones de capital relativamente grandes en software e infraestructura que están sumidas en los esquemas de licencias patentados vinculados a la plataforma que florecieron a fines de la década de 1990.

Como abogado contratista que ha visto miles de contratos comerciales en mi papel de redactor y negociador en nombre de algunas de las compañías más grandes del mundo, estoy profundamente involucrado en abordar esta brecha. Creo que hay una gran oportunidad de negocio para una empresa que puede transformar datos contractuales no estructurados en informes significativos.

Este documento proporciona un buen resumen del estado del arte en esta área: http://aclweb.org/anthology-new/

Hay bastante investigación que estudia el problema de comprender automáticamente la estructura de argumentos en textos legales. El libro de Douglas Walton “Métodos de argumentación para la inteligencia artificial en la ley” ofrece una buena base sobre la superposición entre la teoría de la argumentación y la ley (pero menos en PNL y ley). No es difícil de encontrar en las bibliotecas universitarias, y una vista previa de Google está aquí:
http://books.google.com/books?id

Araucaria es una herramienta de código abierto para etiquetar texto argumentativo:
http: //araucaria.computing.dunde
Este proyecto ha ayudado a generar un conjunto de fragmentos de texto de argumentos etiquetados:
http://www.arg.dundee.ac.uk/proj

Aunque Araucaria tiene como objetivo estudiar textos argumentativos generales, los investigadores de Araucaria tienen al menos un artículo interesante que trata el dominio legal en particular. Ver:
http://portal.acm.org/citation.c

El profesor L. Thorne McCarty también tiene algunos documentos interesantes que aplican PNL a textos legales:
http://www.cs.rutgers.edu/~mccar

Desafortunadamente, incluso el ‘análisis de argumentos’ básico es muy difícil porque
los argumentos involucran mucho contexto de alto nivel que es muy difícil de inferir
algorítmicamente a partir del texto. Las herramientas de PNL de última generación, como los etiquetadores de POS y los kits de herramientas de modelado de temas, tienen un valor limitado para el análisis de argumentos. Probablemente tendrá más suerte construyendo un sistema profundo pero frágil basado en reglas codificadas y expresiones regulares.

Una última referencia: ver también la Conferencia Internacional sobre AI y Derecho:
http://www.law.pitt.edu/events/2