Cómo construir voz en IA

La síntesis de voz se ha vuelto bastante buena últimamente. Para un buen ejemplo de síntesis de voz, deberíamos mirar los programas de computadora conocidos como “Vocaloids”.

Video: Vocaloid “Oliver” cantando la canción “Going Home”.

Un Vocaloid es un programa de computadora que imita una voz humana que canta. Son MUY populares en Japón, hasta el punto de ser básicamente ídolos del pop por derecho propio. Evité usar una de las muchas canciones japonesas populares y decidí mostrar la voz cantante de Oliver para mostrar lo que pueden hacer en inglés. Es bastante agradable, pero aún está claro que es un programa de computadora en algunos lugares.

¿Cómo trabajan? Primero tenemos que entender qué es un “fonema”. Un fonema es hablar lo que las letras son palabras. Son sonidos singulares que cuando se combinan forman palabras completas. Los ejemplos serían “th” y “ee” para formar la palabra “the”. El inglés tiene más de 40 fonemas, con los cuales puede ser bastante difícil trabajar. Por otro lado, a pesar de que los japoneses tienen un alfabeto mucho más grande, aunque solo sea en Hiragana, tienen una colección más pequeña de fonemas, lo que hace que sea un idioma más fácil para crear cosas como Vocaloids.

Hacer un Vocaloid implica hacer una grabación de cada fonema en el idioma en el que está trabajando. Puede hacerlo sintetizando por separado o simplemente haciendo que una persona real grabe su voz. Una vez hecho esto, crea un programa que puede convertir palabras en cadenas de fonemas, como mostramos con la palabra “el” anterior. Luego, el usuario puede subir y bajar los fonemas, estirarlos, acortarlos, agregar vibrato, falsete, y así sucesivamente.

En nuestro ejemplo de “Vocaloid”, un usuario hace esto manualmente para crear una canción, pero en texto a voz, como lo que usa la IA, necesita hacer esto automáticamente, de lo contrario solo le quedará un Voz monótona. Para imitar a un individuo, es posible que tenga que estudiar sus patrones de habla e intentar copiarlos; de lo contrario, podría usar datos sobre el habla e intentar imitar el habla humana general.

Una vez que se completa esta función, una IA puede generar respuestas apropiadas en forma de cadenas de texto, luego empujar las cadenas a través de texto a voz.

Inteligencia ArtificialInteligencia Artificial Generalvoz

¿Cuáles son las principales ventajas que tiene la IA sobre el cerebro humano?

Cómo enseñarme a ser un maestro en el tema de la ingeniería de inteligencia artificial

¿Cómo ha cambiado la investigación de inteligencia artificial desde 1988?

¿Por qué la gente no cree en la inteligencia artificial?

Codifiqué un sitio web realmente bueno pero no tengo el dinero para comprar servidores. ¿Qué hago ahora?

¿Estamos subestimando los peligros de la inteligencia artificial?

Los sistemas de voz y lenguaje natural son un paso importante para que nuestros servidores digitales nos sirvan en nuestros términos. Pasamos de tarjetas perforadas a pantallas verdes a interfaces gráficas de usuario y, finalmente, a computadoras táctiles, del tamaño de la palma, sensibles a la ubicación y al contexto en forma de teléfonos inteligentes (sin mencionar esos molestos paneles de automóviles inteligentes). Ahora tenemos a Siri de Apple, Alexa de Amazon, Microsoft Cortana y el Asistente de Google para responder a nuestras necesidades.

Para construir capacidades de voz y lenguaje natural en sus propias aplicaciones, tiene varias opciones en la nube. Para Alexa, puede acceder a una API abierta sin costo aparente más allá de los cargos de AWS; Lo mismo ocurre con Google, aunque el sitio de Google Cloud es tan claro como este en este punto. Microsoft incluso le permite reutilizar su paquete de habilidades de Alexa con Cortana. Para Apple, hay una API, junto con el costo de $ 99 de convertirse en un desarrollador de Apple y publicar una aplicación de iOS.

Gaurav Mathur

More Interesting

¿Qué tipo de problemas existenciales provoca la IA y cómo los resolvemos?

¿La inteligencia artificial conducirá al verdadero socialismo?

¿Cuál es el estado de la IA en la India?

¿La inteligencia artificial se dirige en la dirección correcta?

¿Qué pasará con los sitios web cuando los asistentes personales de IA se generalicen?

¿Cuáles son los pros y los contras de las redes neuronales artificiales?

¿La inteligencia artificial superará a los humanos?

¿La programación basada en IA será algo en el futuro?

En redes neuronales artificiales, ¿cómo se eligen conexiones específicas entre nodos para fortalecerlas durante el entrenamiento?

¿Cuáles son algunos ejemplos de interacciones entre inteligencia artificial y humanos?