¿Por qué no es posible hacer que las computadoras hablen naturalmente?

Gracias por A2A.

Es posible hacer que una computadora hable de forma natural donde todo el mensaje está pregrabado.

Majel Barrett-Roddenberry grabó todos los mensajes de voz de la computadora Star Fleet para la serie modernizada de Star Trek , The Next Generation , Deep Space 9 * y Voyager . Esas grabaciones se filtraron para hacerlas sonar ligeramente sintéticas.
* No recuerdo qué episodio de Deep Space 9 , pero una computadora cardassiana en un planeta minero fue reactivada ejecutando un sistema operativo cardassiano pero aún con la voz de Majel. Cuando los espectadores señalaron que esto era anómalo, ella dejó de proporcionar la voz para DS9 y otra persona se hizo cargo de ella. Las futuras computadoras cardassianas fueron representadas con una voz masculina.

Donde las computadoras tienen dificultades extremas es convertir texto a voz con solo una muestra aproximada sobre la cual construir. Sí, podrías pregrabar miles de palabras y frases para que se puedan unir, pero ¿cómo impartes entonación?

La primera síntesis de voz se basó en el chip Votrax que contenía 64 “fonemas” (6 bits). Todos estos eran sonidos básicos de vocales y consonantes que se podían unir para crear “palabras”. Con una programación muy cuidadosa, se podía generar un discurso bastante claro, pero sin usar los 2 bits restantes en la interfaz, no había entonación y la salida sonaba muy plana. Un buen ejemplo de cómo suena el Votrax se puede escuchar en Back to the Future 2 , cuando el viejo Marty regresa a casa y la puerta lo saluda. La computadora de voz de Stephen Hawking también está basada en Votrax, aunque se está trabajando para darle una unidad mejorada.

La mayoría de los convertidores de texto a voz todavía usan una variación del enfoque de fonemas, aunque el conjunto de fonemas se ha ampliado significativamente desde la base original de 64 para tener en cuenta los acentos y otros sonidos inusuales como los clics nasales.

Por supuesto, los fonemas que se seleccionan para una palabra determinada generalmente se regirán por la persona que escribe el léxico para el programa. ¿Cómo se pronuncia “cualquiera”? ¿Dices éter o lo dices germánicamente como un ojo ? Para poner esta palabra en la perspectiva correcta, ¿alguna vez has escuchado a alguien que dice tener plumas de un pato?

¿ Controla VER sy sy CON TROV er SY ? Podría continuar para siempre con variaciones controvertidas en cómo las palabras son pronunciadas por diferentes personas, incluso cuando hablan el mismo idioma. Este es un gran desafío cuando se trata de programar la salida de voz para una computadora. Cuanto más grande sea el conjunto de fonemas, más decisiones se deben tomar al seleccionar el sonido correcto.

Debido a que aprendí a hablar realmente bien, comencé a grabar frases y oraciones enteras, luego, usando un editor WAV, extrayendo lo que llamaré “ladrillos” que se pueden unir entre sí para que suene la cadena de “discurso” más natural. La tarea de catalogar todas estas muestras de ladrillos tendrá que ser entregada a un mejor programador que yo, o significaría que cada mensaje en la computadora tendría que generarse dos veces: uno en forma de texto para alimentar a la pantalla, y uno en códigos fonéticos para ser alimentado al generador de voz.

Aún queda un problema. Después de haber creado un conjunto de varios miles de ladrillos (lo que significaría la capacidad de reconstruir en otro idioma), todavía le faltará entonación. Esto significa que tendré que recrear todo el conjunto cuatro veces para permitir inflexiones ascendentes y descendentes. ¿Se va a molestar un programador en indexar 10s de 1000s como ladrillos fonéticos? ¿Se justificará la cantidad de espacio ocupado por todos estos fragmentos de sonido en un dispositivo de consumo?

¿La aplicación de filtros solo permitirá a las personas elegir una voz masculina o femenina, o tendré que contratar a una mujer para volver a grabar todo? ¿Qué pasa si las personas deciden que quieren un acento estadounidense en lugar de uno británico?

El SIRI de Apple suena razonablemente decente, pero los servidores de Apple realizan toda la síntesis y el audio resultante se transmite a su dispositivo. Compare esto con un GPS que tiene que sintetizar el habla internamente en tiempo real. En Seven Hills (un suburbio occidental de Sydney) hay una calle llamada “Chopin St”. Aquellos con educación saben que esto debería pronunciarse algo así como Show-pan Street , mientras que los lugareños en esa área persisten en llamarlo Choppin ‘Street . No he regresado allí desde que adquirí un GPS para averiguar cómo dice el nombre de esta calle, pero he escuchado algunos golpes reales de mi GPS en otras áreas. ¿Hay suficiente espacio dentro del sistema operativo del GPS para una lista de excepciones para que obtenga la pronunciación correcta de calles específicas? Lo dudo.

¿Por qué no es posible hacer que las computadoras hablen naturalmente?

No veo ninguna razón por la que no debería ser posible. El lenguaje humano es una cosa muy compleja, especialmente el énfasis y la coloración emocional. Simplemente no hemos podido hacerlo bien todavía. Pero la síntesis de voz seguirá mejorando hasta el punto en que ya no se pueda distinguir una computadora de un humano.

Las computadoras no hablan. Oh, querías decir “¿por qué no es posible que los programas de texto a voz suenen más como un discurso humano?” Es posible, pero el programa tendría que ser significativamente más grande y mucho más costoso. Tales programas actualmente en producción, usan frases cortas grabadas, generalmente palabras, y no pueden adjuntar inflexiones para igualar las cualidades humanas.

Si está hablando de que la computadora habla por sí misma (AI), eso es posible pero solo hasta cierto punto y eso estaría lejos de ser ‘natural’, en el mundo de hoy las computadoras pueden interactuar con humanos ya que están específicamente diseñados para hacerlo, no son puramente naturales, están programados (aprendizaje supervisado), si una computadora tiene que hablar naturalmente por sí misma, entonces no se le debe dar ningún modelo mundial, debe aprender y tratar de hablar por sí mismo (aprendizaje no supervisado) que es una tarea bastante difícil y ese día aún no ha llegado.