Sí, definitivamente es posible incluso ahora.
Hay una gran investigación dedicada a las transformaciones de voz, puede encontrar una gran lista de referencias en la literatura de investigación correspondiente, por ejemplo, ver
Proyecto de transformación de voz por la universidad de Edimburgo
- ¿Qué son las no linealidades continuas en el contexto de las funciones de activación en redes neuronales?
- Cuando se conoce la distribución de probabilidad discreta posterior, ¿qué función de activación de red neuronal y función de pérdida deben usarse?
- Acabo de ingresar a la escuela de posgrado y quiero trabajar en el campo de ML, AI y minería de datos. Tengo un verano antes de que empiecen las clases. ¿Dónde debería comenzar?
- ¿Quiero crear una herramienta de reconocimiento de escritura a mano con red neuronal usando MATLAB?
- ¿Cuáles son los fundamentos básicos en robótica?
El más famoso y avanzado en estos días es la síntesis de voz basada en HMM y la generación de voz:
Sistema de síntesis de voz basado en HMM (HTS)
El grupo HTS implementó muchos algoritmos geniales para la transformación de voz y puedes encontrar muestras en sus páginas y muchas ideas en sus publicaciones.
La transformación de voz es posible incluso con datos de muestra muy pequeños porque las voces no son tan individuales como podría pensar, hay muchas voces muy similares. La idea es muy simple, para emular el discurso de la persona con alta calidad, necesita tener una gran base de datos de voces humanas y luego todo lo que necesita hacer es encontrar la interpolación ideal entre ellos. Mediante el uso de una gran base de datos pregrabada de, digamos, 1000 voces, puede encontrar fácilmente voces similares al objetivo y emular la voz objetivo con alta calidad. Para determinar la similitud, incluso una oración es suficiente. Este es un truco estándar para aprender algo en una cantidad limitada de muestras.
En los documentos, esta idea se llama “Eigenvoices”, puede leer sobre esta tecnología aquí, por ejemplo:
K. Shichiri, A. Sawabe, K. Tokuda, T. Masuko, T. Kobayashi, T. Kitamura, Eigenvoices para síntesis de voz basada en HMM, Proc. de ICSLP, pp.1269-1272,
Septiembre de 2002.
Puedes probarlo aquí:
Demo de Eigenvoices
Por supuesto, dicha tecnología requerirá mucho esfuerzo para construir una gran base de datos de voces humanas y algo de investigación, pero ciertamente podría implementarse.