¿Hay algún buen algoritmo para clasificar los tonos de chino mandarín de un archivo de audio sin la necesidad de usar una red neuronal?

Sí, definitivamente hay estudios que pueden clasificar las marcas de tono en mandarín sin un aprendizaje profundo.

Amplio vocabulario de reconocimiento de voz en mandarín con diferentes enfoques en tonos de modelado

Este artículo de Chang et al. es de Microsoft Research China. Adaptan el sistema de reconocimiento de voz Microsoft Whisper para modelar diferentes tonos en mandarín. Alimenta unidades semisilábicas que dependen del contexto en un HMM con 6000 senomes con 8 gaussianos por senome. La asignación real de senomas a unidades semisilábicas se deriva de un agrupamiento basado en un árbol de decisión. Para generar datos, toman el habla de 250 hombres y 100 mujeres y extraen las “características” del discurso, tales como los coeficientes de Cepstrum a escala de Mel, tono y características basadas en la energía.

Reconocimiento de tonos en mandarín usando Focus

Este artículo de Surendran et al. implica entrenar diferentes máquinas de vectores de soporte (SVM) en sílabas condicionadas a su posición con respecto a la palabra enfocada en una oración. Al incorporar el enfoque en el reconocimiento de tonos, pudieron disminuir drásticamente la tasa de error. Sugeriría leer Sobre el dominio temporal del enfoque para aprender más sobre la interacción del enfoque y el tono.

Hacia un vocabulario amplio Reconocimiento de voz en chino mandarín

Este artículo de Hon et al. utiliza un HMM y tiene un 98,9% de precisión para los tonos. El documento es un poco viejo y no tengo acceso a IEEE, pero parece que sería útil para su aplicación.