¿Cuál es la diferencia al aplicar el aprendizaje profundo en el reconocimiento de voz automático usando kaldi y usando la antorcha?

Kaldi es un juego de herramientas para hablar con características de aprendizaje profundo específicamente diseñadas para el habla.

La antorcha es un juego de herramientas genérico de aprendizaje profundo.

Las características de Kaldi que son importantes para la implementación del reconocimiento de voz de aprendizaje profundo son: extracción de características con varios parámetros, decodificadores personalizados que incluyen decodificadores capaces de procesar el habla continua, características adaptativas de los altavoces como i-vectors, procedimiento de inicialización especializado, agrupación acústica especializada del estado para una acústica más precisa modelos, marco de prueba, marco de recuperación y evaluación, y muchos más.

No tienes nada de esto en Torch, tendrás que implementarlo tú mismo. O podrá construir un sistema muy básico.

A pesar de que los muchachos de aprendizaje profundo afirman que puedes entrenar un sistema de extremo a extremo sin ningún conocimiento sobre el habla, todavía no es el caso, Kaldi te permite construir un sistema más preciso y, lo que es más importante, más robusto con una menor cantidad de datos. El aprendizaje profundo de extremo a extremo solo tiene sentido con miles de horas de datos; de lo contrario, da resultados inferiores.

Te recomiendo que uses Kaldi para tus experimentos. Es de hecho un estándar en la investigación de reconocimiento de voz en estos días.

More Interesting

¿Hay casos en que las ideas del aprendizaje profundo hayan sido útiles para problemas de datos pequeños?

Andrew Ng: ¿Qué opinas sobre el futuro del aprendizaje de Bayesian Networks?

Cuando la gente dice que la inteligencia artificial destruirá a la raza humana, ¿es que alguien los programará para que estén predispuestos a no gustarle la vida orgánica, o que de alguna manera adquirirán naturalmente las mismas emociones o algoritmos que lo llevan a uno a matar?

¿El aprendizaje automático es un tema torpe?

¿Son los sistemas de recomendación actuales lo mejor que podemos hacer?

¿Cómo debo aprender el aprendizaje automático? ¿Puede proporcionar una hoja de ruta específica desde un principiante hasta un experto?

¿Se pueden usar los modelos ocultos de Markov como clasificadores binarios? Si es así, ¿cómo?

¿Cuál es la pérdida latente en autoencoders variacionales?

Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario

¿El CAPM está muerto, en el sentido de que el aprendizaje automático moderno y el modelado financiero han hecho que su aplicación en el mundo real sea redundante?

¿Qué sigue después del aprendizaje profundo?

¿Necesito implementar modelos de aprendizaje profundo desde cero?

Cómo evaluar un experimento además de usar una diferencia en regresión de diferencia

¿Cómo usa Apple el aprendizaje profundo?

¿Hay algún proyecto de aprendizaje automático de código abierto al que un principiante pueda contribuir?