¿Qué tan difícil es entrenar idiomas indios con CMUSphinx?

El reconocimiento de voz consta de dos partes: modelado acústico (AM) y modelado de lenguaje (LM). Para AM se necesitan datos de voz con la transcripción correspondiente. Lm requiere texto correspondiente a ese idioma. Un paso importante en AM es asignar cada palabra en el idioma a los fonemas correspondientes. Por lo tanto, no es difícil si tiene reglas correctas de diccionario o letra a sonido (LTS) para los idiomas indios. Aquí hay un ejemplo de inglés americano

AAKER: AA K ER

Esto está tomado del diccionario CMU aquí está el enlace: El Diccionario de pronunciamiento CMU. Se necesita un diccionario similar para cualquier idioma nuevo que esté trabajando, si esta parte se realiza el descanso es bastante simple y no debería tomar mucho tiempo. Después de este paso, se puede construir un reconocedor en una semana más o menos.

Una sugerencia general: sería bueno si utiliza un nuevo kit de herramientas de reconocimiento de voz llamado Kaldi para esto. Aquí está el enlace: Kaldi ASR. Kaldi es más potente, ya que permite utilizar modelos potentes, por ejemplo, redes neuronales profundas (DNN) para AM. Puedo ayudarte con esto si quieres.

Escribo esto basado en mi conocimiento de construir un sistema de comando basado en voz hace 5 años usando pocketsphinx.

Lo primero que se necesita es un diccionario de idiomas que asigne las palabras del idioma a un conjunto de fonemas.

Entonces necesita construir un modelo de lenguaje que sea un modelo estadístico para ese idioma en particular. Esto requiere una gran cantidad de transcripciones de texto para ese idioma.

El último es el modelo acústico que modela cómo el discurso se convierte en fonemas. El esfuerzo requerido para hacer esto es subjetivo dependiendo de los dos idiomas que elija. Puede optar por los modelos predeterminados disponibles en Sphinx con algo de capacitación o elegir construir un modelo desde cero para cada idioma.

Una demostración en video de lo que habíamos logrado con el inglés acentuado indio. Utilizamos el modelo acústico predeterminado con algo de entrenamiento.

Nightingale Browser en acción en N900

Como es posible que ya haya visto la documentación disponible, no es tan difícil si tiene suficientes transcripciones de capacitación para construir el modelo acústico / fonético para el idioma específico.

More Interesting

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

Cómo encontrar el contexto de una conversación usando técnicas de aprendizaje automático / aprendizaje profundo / PNL

Estamos viendo el comienzo de las máquinas que pueden codificar. ¿Aprender un lenguaje de programación aún sería útil en la carrera de ML?

Cómo implementar el reconocimiento de imágenes para crear una aplicación para organizar imágenes

Cómo visualizar un clasificador durante su entrenamiento

¿Necesito pasar al menos 1 año para repasar mis matemáticas antes de aprender el aprendizaje automático y el aprendizaje profundo?

¿Las máquinas de vectores de soporte vienen en modelos paramétricos o no paramétricos y por qué?

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

Cómo usar el aprendizaje automático para identificar patrones en la trama de series de tiempo

¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

¿Qué es una explicación intuitiva de los modelos de mezcla gaussiana?

¿Cuál es un buen proyecto de aprendizaje automático para aprender Python?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

¿Qué harás cuando entrenes a tu modelo?

¿Hay algún ejemplo de código de agrupación de documentos utilizando PCA o Autoencoder o algún otro algoritmo de agrupación?