El reconocimiento de voz consta de dos partes: modelado acústico (AM) y modelado de lenguaje (LM). Para AM se necesitan datos de voz con la transcripción correspondiente. Lm requiere texto correspondiente a ese idioma. Un paso importante en AM es asignar cada palabra en el idioma a los fonemas correspondientes. Por lo tanto, no es difícil si tiene reglas correctas de diccionario o letra a sonido (LTS) para los idiomas indios. Aquí hay un ejemplo de inglés americano
AAKER: AA K ER
Esto está tomado del diccionario CMU aquí está el enlace: El Diccionario de pronunciamiento CMU. Se necesita un diccionario similar para cualquier idioma nuevo que esté trabajando, si esta parte se realiza el descanso es bastante simple y no debería tomar mucho tiempo. Después de este paso, se puede construir un reconocedor en una semana más o menos.
- ¿Por qué las redes neuronales artificiales se usan ampliamente en la clasificación de imágenes?
- ¿Cómo puede un estudiante de segundo año de Informática llegar al estudio del aprendizaje automático? ¿Cómo comienza uno?
- ¿Cómo se relaciona la RNN con el aprendizaje profundo?
- ¿Cuál es el mejor código de Python que extrae todas las frases y parte de las etiquetas de voz (POS) de una oración?
- ¿Cuáles son las mejores mejores bibliotecas para la clasificación? ¿Cómo se comparan entre sí?
Una sugerencia general: sería bueno si utiliza un nuevo kit de herramientas de reconocimiento de voz llamado Kaldi para esto. Aquí está el enlace: Kaldi ASR. Kaldi es más potente, ya que permite utilizar modelos potentes, por ejemplo, redes neuronales profundas (DNN) para AM. Puedo ayudarte con esto si quieres.