Cuando se trata de procesamiento de señales, tenemos en cuenta dos tipos de características. Corto plazo y largo plazo. Las características a corto plazo son fáciles de calcular pero no son robustas. Las características a corto plazo incluyen FFT de onda de señal, características MFFC, características espectrales, etc. Y las características a largo plazo incluyen pronunciaciones, son difíciles de calcular pero son robustas e independientes del habla.
Lo que necesita es obtener características de dos voces y puede ejecutar una medida de similitud en sus dos vectores de características. Semejanza
Aquí hay algunas fuentes para obtener funciones:
PyAudioAnalysis: para el análisis del habla en Python
- ¿Cuál debería ser mi plan de estudio para convertirme en científico de datos?
- Cómo usar Simplescalar para crear un proyecto de ciencia de datos
- Cómo encontrar un candidato apasionado con experiencia de 0 a 1 año para reclutar y capacitarse en ciencia de datos
- (MS en ciencia de datos) VS. (Maestría en certificación CS + en ciencia de datos), ¿qué ruta es mejor?
- ¿Cuál es la mejor manera de hacer un curso sobre big data en India?
Funciones de nivel superior para reconocimiento de altavoces
Una descripción general del reconocimiento de altavoces independientes del texto: de las características a los supervectores