Considerando el brote de Deep Learning, aquí hay un blog que enumera los documentos en ASR wrt deep learning:
DeepLearning.University – Una bibliografía anotada de aprendizaje profundo
Solo estoy agregando el material del blog
Modelado Acústico
- Aumento del tamaño del modelo acústico de la red neuronal profunda para el reconocimiento de voz continuo de vocabulario grande
- Cuantificación de vectores de aprendizaje profundo para recuperación de información acústica
- Una tubería de aprendizaje profundo para la comprensión de imágenes y el modelado acústico
- Mejora de modelos acústicos de redes neuronales profundas utilizando redes maxout generalizadas
- Entrenamiento de contracción de límites para modelos acústicos basados en redes neuronales profundas discretas
- Mejora del modelo acústico para el sistema de reconocimiento de voz continuo de gran vocabulario vietnamita con características de cuello de botella profundo
- Reconocimiento fonotáctico del lenguaje basado en el modelo acústico Dnn-hmm
Fonema y reconocimiento y segmentación de teléfonos
- Codificador automático contrastante para reconocimiento de fonemas
- Investigación sobre capas ocultas de redes neuronales profundas en reconocimiento de fonemas
- Inferencia y clasificación conjunta de segmentación de fonemas utilizando CRF
- Etiquetado de datos de secuencia no segmentados con Dnn-hmm y su aplicación para reconocimiento de voz
- Detección de atributos de voz en varios idiomas y reconocimiento telefónico para tibetanos mediante el aprendizaje profundo
- Un enfoque de fusión para la identificación del lenguaje hablado basado en la combinación de múltiples reconocedores telefónicos y detectores de atributos del habla
- Modelos basados en parches de bordes de espectrograma para clasificación de teléfonos
- Contexto fino, redes neuronales profundas softplus de bajo rango para reconocimiento de voz móvil
Reconocimiento de emociones
- Aprendizaje profundo para el reconocimiento emocional del habla
- Reconocimiento hablado de emociones usando aprendizaje profundo
- Mejora del rendimiento de generación del reconocimiento de emociones del habla mediante la eliminación de ruido de autoencoders
- Reconocimiento de Emociones del Habla Usando Cnn
Optimización y descenso de gradiente estocástico
- Una comparación de dos técnicas de optimización para el entrenamiento discriminativo de secuencias de redes neuronales profundas
- Investigación de la optimización estocástica libre de arpillera en redes neuronales profundas para reconocimiento de voz
- Descenso de gradiente estocástico de 1 bit y su aplicación a la formación distribuida en paralelo de datos de DNN de voz
- Sobre la paralelabilidad de la pendiente de gradiente estocástico para los DNN de voz
Modelos generativos
- Modelos generativos y discriminativos profundos para el reconocimiento de voz
- Conversión de voz utilizando redes neuronales profundas con entrenamiento generativo de capa inteligente
Extracción y detección de funciones
- ¿Deberían las redes neuronales profundas tener orejas? El papel de las características auditivas en los enfoques de aprendizaje profundo
- Funciones de difusión espacial para el reconocimiento de voz basado en DNN en entornos ruidosos y reverberantes
- Múltiples funciones de fusión de tiempo para modelado de redes neuronales profundas
Análisis y ajuste de escalabilidad y rendimiento
- Una investigación de implementación y análisis de rendimiento del sistema de síntesis de voz basado en Dnn
- Estrategias de aceleración para el reconocimiento de voz basadas en redes neuronales profundas
- Capacitación paralela de redes neuronales profundas para tareas LVCSR con Blue Gene / Q
- Reconocimiento continuo de voz de vocabulario grande de primer paso utilizando DNN recurrentes bidireccionales
- Redes neuronales convolucionales profundas para tareas de habla a gran escala
Reconocimiento de voz multilingüe y multimodal
- La relación de la mirada y la pose de la cara: impacto potencial en el reconocimiento del habla
- Aprendizaje de transferencia de idiomas cruzados para la mejora del habla basada en redes neuronales profundas
- Conversión de voz dialectal cruzada con redes neuronales
Manejo de ruido
- Reconocimiento de voz resistente al ruido utilizando una red neuronal profunda
- Seguimiento de tono basado en redes neuronales en un discurso muy ruidoso
Sin categorizar (por ahora)
- RASR / NN: el kit de herramientas de red neuronal RWTH para reconocimiento de voz
- Una perspectiva histórica del reconocimiento de voz.
- Mejora de las redes neuronales profundas para LVCSR mediante el abandono y la reducción de la estructura
- Uso de redes de creencias profundas para el reconocimiento de altavoces basado en vectores
- Síntesis estadística paramétrica del habla utilizando la red de creencias profundas de distribución múltiple ponderada
- Aprendizaje profundo de representaciones ortográficas en babuinos
- Adaptación de los altavoces de la red neuronal profunda basada en códigos discriminantes
- Aprendizaje profundo del contexto temporal dividido para el reconocimiento automático de voz.
- CLASIFICACIÓN DEL CONCEPTO DE AUDIO CON REDES NEURONALES PROFUNDA JERARQUICAS
- Un enfoque de aprendizaje profundo para las parametrizaciones basadas en datos para la síntesis estadística del habla paramétrica
- Clasificación binaural para la segregación del habla reverberante utilizando redes neuronales profundas
- Modelado computacional y validación de la contribución motora a la percepción del habla.
- Redes neuronales profundas para sistemas de diálogo hablado
- Enfoques de aprendizaje conjunto en reconocimiento de voz
- Reconocimiento continuo de voz basado en señal de voz sin formato utilizando redes neuronales convolucionales
- Mapeo de características de múltiples fuentes con forma de haz para un reconocimiento de voz superpuesto robusto usando una matriz de micrófonos
- Reconocimiento disartrico del habla mediante una red congestionada de cuello de botella
- Mapeo entre el ultrasonido y el discurso vocal usando el marco Dnn
- Evaluación de desempeño de características de cuello de botella profundo para identificación de lenguaje hablado
- Construyendo un conjunto de modelo acústico Cd-dnn-hmm usando bosques aleatorios de árboles de decisión fonética
- Adaptación de altavoces del modelo híbrido Nn / hmm para reconocimiento de voz basado en la descomposición de valores singulares
- Vinculación de estado basada en árbol de decisión para reconocimiento de voz utilizando incrustaciones derivadas de Dnn
- Crecimiento profundo basado en la red Crf para la comprensión del lenguaje hablado
- Análisis factorial no negativo de la adaptación de peso del modelo de mezcla gaussiana para el reconocimiento de idioma y dialecto