Resumen: cree anotaciones y conjuntos de datos para su idioma y publíquelos. Además, acérquese a las personas que realizan tareas compartidas (como un MT o una competencia de análisis) y pídales que incluyan su idioma en la tarea, con el acuerdo de que proporcionará los datos de entrenamiento y prueba.
Si realmente desea crear un impacto, lo mejor que puede hacer es crear anotaciones y conjuntos de datos para su idioma.
Si tuviera que anotar oraciones en un análisis de dependencia, entonces los analizadores de dependencia existentes podrían recibir capacitación en su idioma.
- ¿Cómo se puede usar una distribución como una característica para la clasificación en el aprendizaje automático?
- ¿Cuáles son algunos problemas de aprendizaje automático que están más allá del poder de scikit-learn para resolver?
- ¿Qué tipo de habilidades de codificación se requieren para trabajar en el aprendizaje automático en empresas como Facebook, Quora, Google, Microsoft?
- ¿Debo usar un cursor o usar el paquete R directamente?
- ¿Es posible o hay algún documento sobre el ajuste de hiperparámetros usando aprendizaje de refuerzo o regresión?
Aún mejor, si tuviera que traducir oraciones en este idioma al inglés, la gente podría entrenar un sistema MT para su idioma. Puedes intentar entrenar tu propio sistema de MT con Joshua.
Pero tendrá un impacto más amplio si sienta las bases para que otros investigadores trabajen con su idioma. Así que asóciese con una tarea compartida existente y también publique datos para trabajar en su idioma.
Evitaría usar NLTK. No se usa ampliamente en la investigación académica, y la investigación académica es lo que impulsará el progreso en PNL en este idioma INDIC. (Las herramientas NLTK a veces están muy lejos del estado de la técnica).