¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal? La tecnología cambia la vida futura

¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

LPC está motivado por el hecho de que una señal de voz puede ser representada como una combinación lineal de muestras de voz anteriores (típicamente 10-14 predictores).

Me gusta ver esto como una serie de tiempo de tipo regresivo automático que pronostica la señal de voz, es decir, dadas mis últimas 12 muestras, ¿cómo se verá mi muestra actual para este sonido en particular? (aunque puede elegir verlo como una técnica para estimar los coeficientes de filtro para el modelo del tracto vocal, ¡pero esa es solo la gente DSP que habla!)

Ahora, dado que la señal de voz cambia continuamente, esta aproximación o estimación va a cambiar (o en términos de DSP, este filtro es variable en el tiempo), pero durante un corto período de tiempo (el intervalo de análisis de voz suele ser de 10 a 30 ms) cuando los parámetros de voz son relativamente estacionario, esto puede no cambiar (o el filtro no varía con el tiempo).

Esto también motiva por qué no la predicción no lineal.

Además de eliminar la redundancia (compresión) también ofrece una ventaja adicional de dar una buena aprox. a la fuente de excitación en el modelo del tracto vocal y también ayuda a determinar el período de tono.

En una tubería de reconocimiento de voz típica, estos coeficientes se pueden usar para formar un conjunto de características (o más formalmente un vector de observación), que se pueden combinar con el modelo almacenado para identificar la palabra hablada en un libro de códigos. Por lo general, se utilizan técnicas como HMM (Avances recientes en comprensión del habla y sistemas de diálogo, el libro ahora es bastante antiguo) y Redes neuronales. Sin embargo, las metodologías recientes como Deep Speech Scaling para el reconocimiento de voz de extremo a extremo se basan en la construcción de arquitecturas eficientes para extraer características relevantes que hayan demostrado superar a todas las canalizaciones existentes (¡ni siquiera requieren el concepto de ‘fonema’! ) y también se muestran bastante robustos para hablar ruidosamente. (en qué época tan emocionante vivimos …)

Si está interesado en LPC, puede encontrar este excelente texto muy útil Procesamiento digital de señales de voz: Lawrence R. Rabiner, Ronald W. Schafer: 9780132136037: Amazon.com: Libros

También se puede encontrar un muy buen curso en

¡asegúrese de mirar todo el curso, es muy interesante!

una buena lectura es

http: //shodhganga.inflibnet.ac.i…

e incluso lectura más corta

http://research.cs.tamu.edu/pris…

También estos wikis son útiles

Codificación predictiva lineal

Predicción lineal

Aprendizaje automáticoCaracterísticasProcesamiento de señal digital