La síntesis de voz se ha vuelto bastante buena últimamente. Para un buen ejemplo de síntesis de voz, deberíamos mirar los programas de computadora conocidos como “Vocaloids”.
Video: Vocaloid “Oliver” cantando la canción “Going Home”.
Un Vocaloid es un programa de computadora que imita una voz humana que canta. Son MUY populares en Japón, hasta el punto de ser básicamente ídolos del pop por derecho propio. Evité usar una de las muchas canciones japonesas populares y decidí mostrar la voz cantante de Oliver para mostrar lo que pueden hacer en inglés. Es bastante agradable, pero aún está claro que es un programa de computadora en algunos lugares.
- ¿Cuál es el futuro de la inteligencia artificial?
- ¿Cuál es el futuro del periodismo de datos en la era de la IA?
- ¿Es la inteligencia general artificial un sueño imposible?
- Quiero aprender inteligencia artificial y piratería ética. ¿Cuáles son las fuentes?
- ¿Cuáles son ejemplos de IA que presenta soluciones no convencionales?
¿Cómo trabajan? Primero tenemos que entender qué es un “fonema”. Un fonema es hablar lo que las letras son palabras. Son sonidos singulares que cuando se combinan forman palabras completas. Los ejemplos serían “th” y “ee” para formar la palabra “the”. El inglés tiene más de 40 fonemas, con los cuales puede ser bastante difícil trabajar. Por otro lado, a pesar de que los japoneses tienen un alfabeto mucho más grande, aunque solo sea en Hiragana, tienen una colección más pequeña de fonemas, lo que hace que sea un idioma más fácil para crear cosas como Vocaloids.
Hacer un Vocaloid implica hacer una grabación de cada fonema en el idioma en el que está trabajando. Puede hacerlo sintetizando por separado o simplemente haciendo que una persona real grabe su voz. Una vez hecho esto, crea un programa que puede convertir palabras en cadenas de fonemas, como mostramos con la palabra “el” anterior. Luego, el usuario puede subir y bajar los fonemas, estirarlos, acortarlos, agregar vibrato, falsete, y así sucesivamente.
En nuestro ejemplo de “Vocaloid”, un usuario hace esto manualmente para crear una canción, pero en texto a voz, como lo que usa la IA, necesita hacer esto automáticamente, de lo contrario solo le quedará un Voz monótona. Para imitar a un individuo, es posible que tenga que estudiar sus patrones de habla e intentar copiarlos; de lo contrario, podría usar datos sobre el habla e intentar imitar el habla humana general.
Una vez que se completa esta función, una IA puede generar respuestas apropiadas en forma de cadenas de texto, luego empujar las cadenas a través de texto a voz.