Proyectos para el procesamiento del lenguaje natural y herramientas de lenguaje para un lenguaje índico

Resumen: cree anotaciones y conjuntos de datos para su idioma y publíquelos. Además, acérquese a las personas que realizan tareas compartidas (como un MT o una competencia de análisis) y pídales que incluyan su idioma en la tarea, con el acuerdo de que proporcionará los datos de entrenamiento y prueba.

Si realmente desea crear un impacto, lo mejor que puede hacer es crear anotaciones y conjuntos de datos para su idioma.

Si tuviera que anotar oraciones en un análisis de dependencia, entonces los analizadores de dependencia existentes podrían recibir capacitación en su idioma.

Aún mejor, si tuviera que traducir oraciones en este idioma al inglés, la gente podría entrenar un sistema MT para su idioma. Puedes intentar entrenar tu propio sistema de MT con Joshua.

Pero tendrá un impacto más amplio si sienta las bases para que otros investigadores trabajen con su idioma. Así que asóciese con una tarea compartida existente y también publique datos para trabajar en su idioma.

Evitaría usar NLTK. No se usa ampliamente en la investigación académica, y la investigación académica es lo que impulsará el progreso en PNL en este idioma INDIC. (Las herramientas NLTK a veces están muy lejos del estado de la técnica).