¿Qué tipos de características se extraen de los archivos de voz utilizando predicción lineal y predicción no lineal?

LPC está motivado por el hecho de que una señal de voz puede ser representada como una combinación lineal de muestras de voz anteriores (típicamente 10-14 predictores).

Me gusta ver esto como una serie de tiempo de tipo regresivo automático que pronostica la señal de voz, es decir, dadas mis últimas 12 muestras, ¿cómo se verá mi muestra actual para este sonido en particular? (aunque puede elegir verlo como una técnica para estimar los coeficientes de filtro para el modelo del tracto vocal, ¡pero esa es solo la gente DSP que habla!)

Ahora, dado que la señal de voz cambia continuamente, esta aproximación o estimación va a cambiar (o en términos de DSP, este filtro es variable en el tiempo), pero durante un corto período de tiempo (el intervalo de análisis de voz suele ser de 10 a 30 ms) cuando los parámetros de voz son relativamente estacionario, esto puede no cambiar (o el filtro no varía con el tiempo).

Esto también motiva por qué no la predicción no lineal.

Además de eliminar la redundancia (compresión) también ofrece una ventaja adicional de dar una buena aprox. a la fuente de excitación en el modelo del tracto vocal y también ayuda a determinar el período de tono.

En una tubería de reconocimiento de voz típica, estos coeficientes se pueden usar para formar un conjunto de características (o más formalmente un vector de observación), que se pueden combinar con el modelo almacenado para identificar la palabra hablada en un libro de códigos. Por lo general, se utilizan técnicas como HMM (Avances recientes en comprensión del habla y sistemas de diálogo, el libro ahora es bastante antiguo) y Redes neuronales. Sin embargo, las metodologías recientes como Deep Speech Scaling para el reconocimiento de voz de extremo a extremo se basan en la construcción de arquitecturas eficientes para extraer características relevantes que hayan demostrado superar a todas las canalizaciones existentes (¡ni siquiera requieren el concepto de ‘fonema’! ) y también se muestran bastante robustos para hablar ruidosamente. (en qué época tan emocionante vivimos …)

Si está interesado en LPC, puede encontrar este excelente texto muy útil Procesamiento digital de señales de voz: Lawrence R. Rabiner, Ronald W. Schafer: 9780132136037: Amazon.com: Libros

También se puede encontrar un muy buen curso en

¡asegúrese de mirar todo el curso, es muy interesante!

una buena lectura es

http: //shodhganga.inflibnet.ac.i…

e incluso lectura más corta

http://research.cs.tamu.edu/pris…

También estos wikis son útiles

Codificación predictiva lineal

Predicción lineal

More Interesting

¿Debo aprender el aprendizaje automático (supervisado) antes del aprendizaje profundo (sin supervisión)? Solo tengo una computadora portátil en casa, entonces, ¿será suficiente la potencia informática?

¿Cómo puedo usar una red neuronal de convolución (para reconocimiento facial) después del entrenamiento? Quiero darle una cara como entrada y ver la salida predicha.

¿Crees que Robot puede realizar todas las tareas humanas con Deep Learning?

He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?

¿Puede el conocimiento del dominio ayudar a usar menos datos de entrenamiento, cuando se entrena una red neuronal convolucional para una aplicación específica?

¿Somos mejores que las máquinas que creamos?

Cómo predecir las ventas del próximo año, nivel de día, dada la información de ventas de años anteriores, también a nivel de día, y mediante el uso de Kalman Filtering

¿Cuál es una buena manera de aprender acerca de los métodos bayesianos?

¿Por qué la regresión logística es generalmente resistente al sobreajuste en el aprendizaje automático?

Cómo evaluar la precisión del entrenamiento para una red neuronal con una capa oculta

¿Cuáles son algunos trabajos de investigación que puedo publicar en el campo del procesamiento / generación de lenguaje natural, aprendizaje automático y minería de datos?

¿Hay alguna manera fácil de configurar AWS para el aprendizaje profundo con Tensorflow y Keras?

Cómo garantizar que la función SIFT sea invariante en perspectiva

Cómo calcular la ganancia de información para cada atributo si estoy diseñando un árbol clasificador de decisiones con nodos binarios en cada derrame

¿Cuáles son los casos de uso del uso del procesamiento del lenguaje natural (PNL) en diversas industrias?