Depende de lo que quieras anotar. Las opciones son ilimitadas, y los requisitos de su esquema de anotación determinarán cómo lo hace.
La “anotación” más simple (es decir, análisis y etiquetado de POS) se puede hacer automáticamente y con bastante buena precisión mediante una serie de herramientas estándar, como las que se encuentran en el Kit de herramientas de lenguaje natural – Wikipedia o las que vienen con Sketch Engine, un sistema de gestión y consulta de corpus de idiomas.
Cualquier cosa más complicada que esto puede ser costosa y laboriosa. Por lo general, usaría un software de anotación que desarrolle usted mismo o que adapte de uno listo, como weitechen / anafora o WebAnno. Eso sí, estos son solo dos; Hay muchos. Google “software de anotación”.
- ¿Por qué los modelos de aprendizaje automático no funcionan bien cuando se usan en la predicción del mercado de valores en vivo, pero, por otro lado, funcionan muy bien sin conexión?
- ¿Qué algunos documentos sobre desafíos en predicción financiera con técnicas de aprendizaje automático?
- ¿Por qué la deserción puede mejorar el problema de sobreajuste en redes neuronales profundas?
- ¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?
- ¿Existe una versión de objetivos múltiples de regresión logística, regresión lineal, SVM, PCA, K-means o algún otro algoritmo de aprendizaje automático?
A partir de aquí, desarrollará su esquema de anotación y contratará a un grupo de anotadores (estudiantes de pregrado, estudiantes de posgrado con buenos instintos lingüísticos o antecedentes lingüísticos) para anotar las características que desee marcar. Idealmente, se hace una doble anotación y luego se adjudica para obtener un conjunto de datos de entrenamiento estándar.
Cuando tiene suficiente de esto, desarrolla algoritmos de aprendizaje automático para ver si una computadora puede hacer tan bien o casi tan bien la anotación de texto nuevo como lo hicieron los humanos. Si tiene suerte, esto funciona, y luego puede desarrollar un gran corpus de datos anotados. Si no tiene tanta suerte, la anotación automatizada no es de calidad suficiente y debe retroceder, anotar manualmente más datos y depurar sus aloritmos.