Los sistemas actuales de texto a voz a menudo no captan correctamente la prosodia del habla. La prosodia es el patrón de estrés y entonación en un enunciado. Depende del contexto en el que se produce un teléfono . El contexto se define por los teléfonos anteriores y posteriores, la posición en la sílaba, la posición en la palabra, parte de la etiqueta de voz, etc. Es realmente difícil crear un conjunto de reglas para determinar el tono de un enunciado que lo hará Suena natural. Dos de los parámetros de los que depende la prosodia son la trayectoria de la frecuencia fundamental y la duración de los teléfonos. Estos pueden modelarse explícita o implícitamente en un sistema TTS, pero en cualquier caso se utilizan modelos estadísticos para predecir estos parámetros cuando se genera un enunciado. Actualmente, estos modelos estadísticos (incluidas las redes neuronales elegantes) no pueden modelarlos perfectamente.
Dicho esto, la síntesis de texto a voz ha recorrido un largo camino en lo que respecta a la naturalidad. Puede escuchar las muestras de voz de dos de los sistemas TTS creados por Google: Wavenet y Tacotron
- ¿Qué tan frecuentes son los superconductores de alta temperatura basados en itrio?
- ¿Qué compañía hizo el primer teléfono móvil?
- ¿Qué podría significar encontrar y hacer contacto con la vida inteligente, tecnológica (y pacífica) en otro planeta? (O si se ponen en contacto con nosotros)
- Si reproduzco una película de 1960 a 4k, ¿la calidad será mejor o será la misma que en 1960?
- ¿Cuáles son las formas o cómo puedo mantenerme actualizado en términos de tecnología, en todo el mundo, etc., siendo un empleado en el sector de TI?