¿Dónde puedo encontrar un conjunto de datos de texto traducido de cualquier idioma a otro válido para ser entrenado en un modelo de traducción automática en aprendizaje automático?

Depende de lo que quieras decir con “cualquier idioma”. Hay miles de idiomas, y para la mayoría de ellos será difícil encontrar texto escrito (ya que puede que ni siquiera tengan un sistema de escritura), y mucho menos textos con traducciones (corpus paralelos).

Si eres un poco más modesto, hay una buena colección de corpus paralelos disponibles en el sitio web del proyecto Opus que cubre al menos muchos idiomas. Dependerá de si los cuerpos que puede extraer son lo suficientemente grandes como para entrenar modelos MT. A menudo, la calidad y la cobertura de los modelos que puede crear serán bastante limitadas.

Si está interesado en los idiomas de la UE (actualmente 24), hay una interesante colección de textos paralelos producidos por traductores de instituciones de la UE llamada DGT-TM.

La gente ha usado traducciones de la Biblia (uno de los libros más traducidos) para hacer experimentos de MT con muchos idiomas, pero el problema aquí es que el idioma es un poco anticuado y el texto (y, por lo tanto, los modelos creados a partir de él) No cubre mucho el vocabulario moderno.

Si desea centrarse más en el vocabulario en lugar de en el texto traducido, es posible que valga la pena mirar el proyecto Panlex de la Fundación Long Now.