¿Cuáles son los componentes básicos del reconocimiento de voz desde el punto de vista DSP?

Una respuesta bastante ingenua.

////////////////
Datos crudos
/////////////////
– Transformación de dominio (Wavelets / Transformada de Fourier a corto plazo / Transformación KL / etc.) >>
– Filtrado espacial (micrófonos múltiples / enfoque de fuente) >>
– Filtrado temporal (eliminación de ruido temporal) >>
– Segmentación / identificación del habla (tiene su señal limpia “de alguna manera” para funcionar)

////////////////
Entrada de voz
////////////////
– Transformación de dominio (de nuevo si todavía necesita algo diferente de antes)
– Reconocimiento / clasificación de patrones (pruebas de hipótesis o cualquier cosa que se te ocurra, incluso cosas extrañas extraídas de ML)

Eso es básicamente algunos de los bloques de construcción importantes, por supuesto, hay más y algunos de ellos están mucho más involucrados (muestreo, reconstrucción, enmarcado, etc.).

Dependiendo de dónde comience, tendrá más bloques. No es lo mismo comenzar con una señal de voz “limpia” y luego hacer el reconocimiento de voz (identificación de palabras / oraciones / fonemas) que comenzar con solo una señal aleatoria de un grupo de micrófonos y luego decidir si hay algo parecido para hablar, límpielo de la mejor manera posible y luego proceselo.

¡Espero eso ayude!

More Interesting

¿Cómo debo comenzar con las redes neuronales recurrentes?

¿Qué son el aprendizaje profundo y el aprendizaje automático, sus diferencias, similitudes, relaciones y una línea de tiempo de su historia de invención?

¿Por qué utilizamos el agrupamiento en el análisis estadístico? ¿Puedes dar una explicación intuitiva o ejemplos intuitivos?

Visión por computadora: ¿Existe un servicio que, dada una imagen, le dice lo que representa?

Robótica: ¿Cuáles son algunos proyectos interesantes de aprendizaje automático relacionados con UAV / drones?

¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

¿Qué tan lejos estamos de usar el reconocimiento de voz como interfaz de usuario en un teléfono para cerca del 100% de todas las funciones (sin entradas de teclado o deslizamiento)?

¿Cómo ayuda el enfoque ontológico con la clasificación de texto?

¿Hay algo que Deep Learning nunca podrá aprender?

¿Cuántas personas en el mundo son expertos en aprendizaje profundo para visión por computadora?

¿Cuál es el mejor clasificador HOG de detección de peatones para descargar?

¿Cuál es una buena manera de elegir los puntos iniciales de los grupos de k en el grupo de medios k?

¿Cuáles son las características únicas de una red neuronal en comparación con otras técnicas de aprendizaje automático?

¿Cuáles son algunos buenos cursos y certificaciones en línea en aprendizaje automático e inteligencia artificial para un estudiante universitario de CS actual?

En la regresión logística multinomial, ¿por qué el valor p en la prueba de razón de probabilidad es significativo pero en las estimaciones de parámetros no es significativo para cada dimensión?