Cómo construir voz en IA

La síntesis de voz se ha vuelto bastante buena últimamente. Para un buen ejemplo de síntesis de voz, deberíamos mirar los programas de computadora conocidos como “Vocaloids”.

Video: Vocaloid “Oliver” cantando la canción “Going Home”.

Un Vocaloid es un programa de computadora que imita una voz humana que canta. Son MUY populares en Japón, hasta el punto de ser básicamente ídolos del pop por derecho propio. Evité usar una de las muchas canciones japonesas populares y decidí mostrar la voz cantante de Oliver para mostrar lo que pueden hacer en inglés. Es bastante agradable, pero aún está claro que es un programa de computadora en algunos lugares.

¿Cómo trabajan? Primero tenemos que entender qué es un “fonema”. Un fonema es hablar lo que las letras son palabras. Son sonidos singulares que cuando se combinan forman palabras completas. Los ejemplos serían “th” y “ee” para formar la palabra “the”. El inglés tiene más de 40 fonemas, con los cuales puede ser bastante difícil trabajar. Por otro lado, a pesar de que los japoneses tienen un alfabeto mucho más grande, aunque solo sea en Hiragana, tienen una colección más pequeña de fonemas, lo que hace que sea un idioma más fácil para crear cosas como Vocaloids.

Hacer un Vocaloid implica hacer una grabación de cada fonema en el idioma en el que está trabajando. Puede hacerlo sintetizando por separado o simplemente haciendo que una persona real grabe su voz. Una vez hecho esto, crea un programa que puede convertir palabras en cadenas de fonemas, como mostramos con la palabra “el” anterior. Luego, el usuario puede subir y bajar los fonemas, estirarlos, acortarlos, agregar vibrato, falsete, y así sucesivamente.

En nuestro ejemplo de “Vocaloid”, un usuario hace esto manualmente para crear una canción, pero en texto a voz, como lo que usa la IA, necesita hacer esto automáticamente, de lo contrario solo le quedará un Voz monótona. Para imitar a un individuo, es posible que tenga que estudiar sus patrones de habla e intentar copiarlos; de lo contrario, podría usar datos sobre el habla e intentar imitar el habla humana general.

Una vez que se completa esta función, una IA puede generar respuestas apropiadas en forma de cadenas de texto, luego empujar las cadenas a través de texto a voz.

Los sistemas de voz y lenguaje natural son un paso importante para que nuestros servidores digitales nos sirvan en nuestros términos. Pasamos de tarjetas perforadas a pantallas verdes a interfaces gráficas de usuario y, finalmente, a computadoras táctiles, del tamaño de la palma, sensibles a la ubicación y al contexto en forma de teléfonos inteligentes (sin mencionar esos molestos paneles de automóviles inteligentes). Ahora tenemos a Siri de Apple, Alexa de Amazon, Microsoft Cortana y el Asistente de Google para responder a nuestras necesidades.

Para construir capacidades de voz y lenguaje natural en sus propias aplicaciones, tiene varias opciones en la nube. Para Alexa, puede acceder a una API abierta sin costo aparente más allá de los cargos de AWS; Lo mismo ocurre con Google, aunque el sitio de Google Cloud es tan claro como este en este punto. Microsoft incluso le permite reutilizar su paquete de habilidades de Alexa con Cortana. Para Apple, hay una API, junto con el costo de $ 99 de convertirse en un desarrollador de Apple y publicar una aplicación de iOS.