Sí, definitivamente hay estudios que pueden clasificar las marcas de tono en mandarín sin un aprendizaje profundo.
Amplio vocabulario de reconocimiento de voz en mandarín con diferentes enfoques en tonos de modelado
Este artículo de Chang et al. es de Microsoft Research China. Adaptan el sistema de reconocimiento de voz Microsoft Whisper para modelar diferentes tonos en mandarín. Alimenta unidades semisilábicas que dependen del contexto en un HMM con 6000 senomes con 8 gaussianos por senome. La asignación real de senomas a unidades semisilábicas se deriva de un agrupamiento basado en un árbol de decisión. Para generar datos, toman el habla de 250 hombres y 100 mujeres y extraen las “características” del discurso, tales como los coeficientes de Cepstrum a escala de Mel, tono y características basadas en la energía.
- ¿Cuál es el mejor algoritmo para ocultar datos en texto?
- ¿Hay algún algoritmo fijo para resolver el cubo de Rubik? Si es así, ¿qué es?
- ¿Qué es la fuerza bruta?
- ¿Cuál: Estructura de datos y pensamiento algorítmico con Python (Narasimha Karumanchi) o Estructuras de datos y algoritmos en Python (Michael T. Goodrich)?
- ¿Por qué los temas 'estructura de datos' y 'algoritmo' siempre están conectados? ¿Hay un curso o libro que solo se ocupe de la estructura de datos?
Reconocimiento de tonos en mandarín usando Focus
Este artículo de Surendran et al. implica entrenar diferentes máquinas de vectores de soporte (SVM) en sílabas condicionadas a su posición con respecto a la palabra enfocada en una oración. Al incorporar el enfoque en el reconocimiento de tonos, pudieron disminuir drásticamente la tasa de error. Sugeriría leer Sobre el dominio temporal del enfoque para aprender más sobre la interacción del enfoque y el tono.
Hacia un vocabulario amplio Reconocimiento de voz en chino mandarín
Este artículo de Hon et al. utiliza un HMM y tiene un 98,9% de precisión para los tonos. El documento es un poco viejo y no tengo acceso a IEEE, pero parece que sería útil para su aplicación.