Hay innumerables enfoques a esto en la literatura.
Muchos de ellos aplican algún tipo de análisis espacial (traducir: métodos que no se preocupan por las dependencias de tiempo), es decir, aprendizaje automático o análisis estadístico a características discretas derivadas del espectro de audio. Las características generalmente corresponden a “mosaicos” de audio adyacentes y no superpuestos (quizás fragmentos de 1 segundo). Se aplica algún tipo de transformación de características a estos mosaicos. Por lo general, esta sería una transformada de Fourier discreta para obtener los datos en el dominio de la frecuencia (para derivar un espectro) y luego tal vez algo por encima de eso, como una función de energía, centroide espectral, binning o lo que sea. Estos luego van a un clasificador para entrenarse en datos anteriores y probar nuevos datos. El clasificador podría ser cualquier cosa; Soporte de máquina de vectores, red neuronal artificial, árboles de decisión, Bayes ingenuos, modelo gráfico, etc.
Las transformadas Wavelet también se pueden usar en lugar de las transformadas de Fourier. Vale la pena señalar que las transformadas de Fourier tienen una complejidad de tiempo cuadrática y las wavelets se pueden calcular en tiempo lineal. Por lo tanto, tiene sentido utilizar mosaicos pequeños en transformaciones de Fourier. La solución común de resolución de tiempo / frecuencia con el análisis de Fourier probablemente no será un problema porque supongo que la precisión de 1 segundo es lo suficientemente buena para esta aplicación.
- Tengo problemas para escribir trabajos de investigación. ¿Qué tengo que hacer?
- ¿Quiénes son los mejores académicos y practicantes del aprendizaje automático?
- ¿Cuáles son algunas de las tareas más desalentadoras en Computer Vision?
- ¿Qué tan prestigioso es publicar en NIPS?
- ¿Qué universidades contienen los departamentos de informática más prácticos?
Se podrían usar modelos estocásticos basados en el tiempo, por ejemplo, modelos ocultos de Markov.
Echa un vistazo a Google Scholar.
Búsqueda de Google Académico: discriminación del habla por audio no hablado