Su primera pregunta probablemente debería ser si existe alguna ambigüedad o no: para una oración dada en árabe estándar, ¿hay exactamente una manera de agregar los signos diacríticos, o hay varias formas válidas con diferentes significados?
Si es lo último, esencialmente debe aceptar que a veces estará mal, lo que implica darle al usuario una forma de corregirlo. No importa la cantidad de datos que tenga una red neuronal, no puede predecir lo que piensa el usuario; lo mejor que puede hacer es proporcionar la versión más común. Así es como funciona el texto predictivo: puede haber varias palabras, por lo que las enumera en orden de probabilidad.
Si es lo primero, una red neuronal podría funcionar para esto, siempre que tenga un gran cuerpo de oraciones que sean idénticas, traducidas correctamente a ambas formas, en un formato amigable para la computadora.
- ¿Cuáles son las aplicaciones del algoritmo de la Torre de Hanoi?
- ¿Cuáles son algunos libros que debe leer un experto en algoritmos?
- ¿Cuánto tiempo / horas debo pasar todos los días para ser un buen programador de Java para poder resolver estructuras de datos y algoritmos con ese lenguaje en el futuro?
- Cómo mejorar mis estructuras de datos y algoritmo desde el nivel básico
- Cómo encontrar la tasa de ganancia más efectiva con la menor cantidad de coincidencias posible (algoritmo)
También necesitaría decidir cuál es el tamaño de representación apropiado: ¿puede asignar palabras en una a palabras en la otra? ¿O las combinaciones de palabras en árabe estándar interactúan para producir diacríticos diferentes de los que vería con cada palabra individualmente?
Suena como un problema desafiante. Me pregunto si el traductor de Google puede hacer esto.