¿Cuáles son las unidades de análisis utilizadas en el reconocimiento de voz automático?

Bueno, la práctica actual es una jerarquía bastante compleja.

La voz es un flujo de audio continuo donde los estados más estables se mezclan con estados cambiados dinámicamente. En esta secuencia de estados, uno puede definir clases de sonidos o teléfonos más o menos similares. Se entiende que las palabras están construidas con teléfonos, pero esta no es una descripción muy precisa. Las propiedades acústicas de una forma de onda correspondiente a un teléfono pueden variar mucho dependiendo de muchos factores: contexto del teléfono, altavoz, estilo de voz, etc. La llamada coarticulación hace que los teléfonos suenen muy diferentes de su representación “canónica”. A continuación, dado que las transiciones entre palabras son más informativas que las regiones estables, los desarrolladores a menudo hablan de diphones, partes de teléfonos entre dos teléfonos consecutivos. A veces, los desarrolladores hablan de unidades subfónicas, diferentes subestados de un teléfono. A menudo, se pueden encontrar fácilmente tres o más regiones de diferente naturaleza dentro del único teléfono.

El número tres se explica fácilmente. La primera parte del teléfono depende de su teléfono anterior, la parte central es estable y la siguiente parte depende del teléfono posterior. Es por eso que a menudo hay tres subestados telefónicos en un teléfono seleccionado para reconocimiento de voz.

A veces los teléfonos se consideran en contexto. Hay trifones o incluso quinphones. Pero tenga en cuenta que, a diferencia de los teléfonos y los difusos, se combinan con el mismo rango en forma de onda que los teléfonos. Simplemente difieren por su nombre. Es por eso que preferimos llamar a este objeto senone . La dependencia de un senone del contexto podría ser más compleja que solo el contexto izquierdo y derecho. Puede ser una función bastante compleja definida por un árbol de decisión, o de alguna otra manera.

A continuación, los teléfonos crean unidades de subpalabras, como sílabas. A veces, las sílabas se definen como “entidades estables a la reducción”. Para ilustrar, cuando el habla se vuelve rápido, los teléfonos a menudo cambian, pero las sílabas siguen siendo las mismas. Además, las sílabas están relacionadas con el contorno entonacional. Hay otras formas de construir sub palabras, por ejemplo, basadas en morfología en lenguajes ricos en morfología o métodos basados ​​en fonéticamente. Las subpalabras se usan a menudo en el reconocimiento de voz de vocabulario abierto.
Las subpalabras forman palabras. Las palabras son importantes en el reconocimiento de voz porque restringen significativamente las combinaciones de teléfonos. Si hay 40 teléfonos y una palabra promedio tiene 7 teléfonos, debe haber 40 ^ 7 palabras. Afortunadamente, incluso una persona muy educada rara vez usa más de 20k palabras en su práctica, lo que hace que el reconocimiento sea más factible.

Las palabras y otros sonidos no lingüísticos, que llamamos rellenos (aliento, um, uh, tos), forman expresiones . Son fragmentos separados de audio entre pausas. No necesariamente combinan oraciones, que son conceptos más semánticos.