¿Cuáles son algunos desafíos en el desarrollo de la tecnología Text To Speech que no se puede distinguir de la voz humana?

Los sistemas actuales de texto a voz a menudo no captan correctamente la prosodia del habla. La prosodia es el patrón de estrés y entonación en un enunciado. Depende del contexto en el que se produce un teléfono . El contexto se define por los teléfonos anteriores y posteriores, la posición en la sílaba, la posición en la palabra, parte de la etiqueta de voz, etc. Es realmente difícil crear un conjunto de reglas para determinar el tono de un enunciado que lo hará Suena natural. Dos de los parámetros de los que depende la prosodia son la trayectoria de la frecuencia fundamental y la duración de los teléfonos. Estos pueden modelarse explícita o implícitamente en un sistema TTS, pero en cualquier caso se utilizan modelos estadísticos para predecir estos parámetros cuando se genera un enunciado. Actualmente, estos modelos estadísticos (incluidas las redes neuronales elegantes) no pueden modelarlos perfectamente.

Dicho esto, la síntesis de texto a voz ha recorrido un largo camino en lo que respecta a la naturalidad. Puede escuchar las muestras de voz de dos de los sistemas TTS creados por Google: Wavenet y Tacotron

Aprendizaje automáticoInteligencia ArtificialProcesamiento del lenguaje naturalReconocimiento deTecnologíavoz

Related Content

¿Los humanos tienen la tecnología para matar al sol?

¿Cómo podría la tecnología blockchain afectar la industria de la salud y las ciencias de la vida?

¿Cuál es la mejor computadora portátil DOS de menos de 30,000 a 35,000?

¿Qué otros elementos podrían usarse para fabricar baterías avanzadas que no sean de litio?

¿Se puede controlar el avance del Progreso?

¿Cuáles son las diferencias entre DRAM síncrona y DRAM asíncrona?

¿Cuán diferente sería el mundo sin satélites?

No es realmente mi mundo profesional, pero un obstáculo importante sobre el que he leído en múltiples ocasiones es simular el “espacio” entre palabras. Su entonación e inflexión con una palabra se ve afectada en gran medida por el lugar donde se encuentra en la oración, la intención, etc.

Ejemplo: “¿Quién me va a ayudar?” Vs. “Alguien me va a ayudar”. “Me va a ayudar” va a sonar muy diferente entre esas 2 oraciones.

Greg Tilton JR

Echa un vistazo a wavenet y sampleRNN. Producen voz humana como de muy alta calidad. Wavenet necesita mucho tiempo para sintetizar.

Krishna

More Interesting

Vivimos en una época de Internet móvil inalámbrico, drones e impresión 3D, ¿por qué no me impresionan?

¿Hay alguna forma de cargar nuestros teléfonos inteligentes más rápido?

¿Cuánto tiempo por día debería uno realmente usar su teléfono celular?

¿Cuál es la pila tecnológica de Quartz?

¿Qué significan los tonos asociados con los diferentes dígitos de un teléfono al marcar un número?

Cómo verificar para ver quién es el proveedor de telefonía celular para un teléfono

¿Cuál podría ser el 'gadget' de 2017?

¿Cuánto más rápido es un disco de estado sólido que un disco duro tradicional?

Si ha lanzado un negocio como diseñador o artista basado en sus productos o obtiene la mayoría de sus ingresos de sus propios productos, ¿cómo fue para usted el proceso y la experiencia de llegar allí?

¿Cuál es el mejor micrófono para un músico de YouTube?

¿Qué pasó con la compañía de televisión BPL? ¿Por qué salieron del mercado indio?

¿Cómo ha crecido la industria tecnológica de Israel para ser tan influyente?

¿Por qué todavía no se ha desarrollado una impresora o impresora multifunción líder en el mercado?

Cómo comenzar a desarrollar para Internet de las cosas (IoT)

¿Qué tan cerca estamos de la automatización total de toda la fabricación?

Web Analytics