¿Cuáles son algunos desafíos en el desarrollo de la tecnología Text To Speech que no se puede distinguir de la voz humana?

Los sistemas actuales de texto a voz a menudo no captan correctamente la prosodia del habla. La prosodia es el patrón de estrés y entonación en un enunciado. Depende del contexto en el que se produce un teléfono . El contexto se define por los teléfonos anteriores y posteriores, la posición en la sílaba, la posición en la palabra, parte de la etiqueta de voz, etc. Es realmente difícil crear un conjunto de reglas para determinar el tono de un enunciado que lo hará Suena natural. Dos de los parámetros de los que depende la prosodia son la trayectoria de la frecuencia fundamental y la duración de los teléfonos. Estos pueden modelarse explícita o implícitamente en un sistema TTS, pero en cualquier caso se utilizan modelos estadísticos para predecir estos parámetros cuando se genera un enunciado. Actualmente, estos modelos estadísticos (incluidas las redes neuronales elegantes) no pueden modelarlos perfectamente.

Dicho esto, la síntesis de texto a voz ha recorrido un largo camino en lo que respecta a la naturalidad. Puede escuchar las muestras de voz de dos de los sistemas TTS creados por Google: Wavenet y Tacotron

No es realmente mi mundo profesional, pero un obstáculo importante sobre el que he leído en múltiples ocasiones es simular el “espacio” entre palabras. Su entonación e inflexión con una palabra se ve afectada en gran medida por el lugar donde se encuentra en la oración, la intención, etc.

Ejemplo: “¿Quién me va a ayudar?” Vs. “Alguien me va a ayudar”. “Me va a ayudar” va a sonar muy diferente entre esas 2 oraciones.

Echa un vistazo a wavenet y sampleRNN. Producen voz humana como de muy alta calidad. Wavenet necesita mucho tiempo para sintetizar.