En PNL, ¿cómo se crean los corpus anotados?

Depende de lo que quieras anotar. Las opciones son ilimitadas, y los requisitos de su esquema de anotación determinarán cómo lo hace.

La “anotación” más simple (es decir, análisis y etiquetado de POS) se puede hacer automáticamente y con bastante buena precisión mediante una serie de herramientas estándar, como las que se encuentran en el Kit de herramientas de lenguaje natural – Wikipedia o las que vienen con Sketch Engine, un sistema de gestión y consulta de corpus de idiomas.

Cualquier cosa más complicada que esto puede ser costosa y laboriosa. Por lo general, usaría un software de anotación que desarrolle usted mismo o que adapte de uno listo, como weitechen / anafora o WebAnno. Eso sí, estos son solo dos; Hay muchos. Google “software de anotación”.

A partir de aquí, desarrollará su esquema de anotación y contratará a un grupo de anotadores (estudiantes de pregrado, estudiantes de posgrado con buenos instintos lingüísticos o antecedentes lingüísticos) para anotar las características que desee marcar. Idealmente, se hace una doble anotación y luego se adjudica para obtener un conjunto de datos de entrenamiento estándar.

Cuando tiene suficiente de esto, desarrolla algoritmos de aprendizaje automático para ver si una computadora puede hacer tan bien o casi tan bien la anotación de texto nuevo como lo hicieron los humanos. Si tiene suerte, esto funciona, y luego puede desarrollar un gran corpus de datos anotados. Si no tiene tanta suerte, la anotación automatizada no es de calidad suficiente y debe retroceder, anotar manualmente más datos y depurar sus aloritmos.

La respuesta de Orin ya lo captura.

Agregando un ejemplo más de una anotación a gran escala bastante reciente realizada en Stanford http://nlp.stanford.edu/pubs/snl

  • Anotación y validación realizada por nosotros humanos usando Amazon Mechanical Turk
  • Los modelos de aprendizaje de máquinas solían evaluar cómo ayudaban estos corpus anotados.
  • Ejemplo de las anotaciones realizadas en este caso.
  • El objetivo de este corpus era crear 570,000 pares de oraciones que pueden estar relacionadas entre sí (implicación), contradictorias o neutrales
  • Las instrucciones para los anotadores del documento anterior

Cuentacuentos para uno. Hacer que el alumno experimente vívidamente cómo lo experimenta el talento natural.