Si empiezo a leer artículos científicos, ¿cuáles son los documentos que deben leerse sobre la conversión de ‘discurso a texto’?

Si no sabes nada sobre el reconocimiento de voz, leer documentos es algo inútil. Debe tener una gran experiencia en el habla y comprender la tecnología subyacente. La mejor manera de familiarizarse con ASR es leer un libro, recomendaría dos buenos:

Procesamiento de lenguaje hablado: una guía de teoría, algoritmo y desarrollo de sistemas: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon: 0076092010418: Amazon.com: Libros

y

Reconocimiento automático del habla: un enfoque de aprendizaje profundo (tecnología de señales y comunicación): Dong Yu, Li Deng: 9781447157786: Amazon.com: Libros
Esos libros deberían darle una buena comprensión del tema.

Si aún desea una descripción general reciente, probablemente sea una buena idea consultar el siguiente documento de portada:

Una perspectiva histórica del reconocimiento de voz
Por Xuedong Huang, James Baker, Raj Reddy

y, por supuesto, las referencias en el mismo.

Considerando el brote de Deep Learning, aquí hay un blog que enumera los documentos en ASR wrt deep learning:

DeepLearning.University – Una bibliografía anotada de aprendizaje profundo

Solo estoy agregando el material del blog

Modelado Acústico

  1. Aumento del tamaño del modelo acústico de la red neuronal profunda para el reconocimiento de voz continuo de vocabulario grande
  2. Cuantificación de vectores de aprendizaje profundo para recuperación de información acústica
  3. Una tubería de aprendizaje profundo para la comprensión de imágenes y el modelado acústico
  4. Mejora de modelos acústicos de redes neuronales profundas utilizando redes maxout generalizadas
  5. Entrenamiento de contracción de límites para modelos acústicos basados ​​en redes neuronales profundas discretas
  6. Mejora del modelo acústico para el sistema de reconocimiento de voz continuo de gran vocabulario vietnamita con características de cuello de botella profundo
  7. Reconocimiento fonotáctico del lenguaje basado en el modelo acústico Dnn-hmm

Fonema y reconocimiento y segmentación de teléfonos

  1. Codificador automático contrastante para reconocimiento de fonemas
  2. Investigación sobre capas ocultas de redes neuronales profundas en reconocimiento de fonemas
  3. Inferencia y clasificación conjunta de segmentación de fonemas utilizando CRF
  4. Etiquetado de datos de secuencia no segmentados con Dnn-hmm y su aplicación para reconocimiento de voz
  5. Detección de atributos de voz en varios idiomas y reconocimiento telefónico para tibetanos mediante el aprendizaje profundo
  6. Un enfoque de fusión para la identificación del lenguaje hablado basado en la combinación de múltiples reconocedores telefónicos y detectores de atributos del habla
  7. Modelos basados ​​en parches de bordes de espectrograma para clasificación de teléfonos
  8. Contexto fino, redes neuronales profundas softplus de bajo rango para reconocimiento de voz móvil

Reconocimiento de emociones

  1. Aprendizaje profundo para el reconocimiento emocional del habla
  2. Reconocimiento hablado de emociones usando aprendizaje profundo
  3. Mejora del rendimiento de generación del reconocimiento de emociones del habla mediante la eliminación de ruido de autoencoders
  4. Reconocimiento de Emociones del Habla Usando Cnn

Optimización y descenso de gradiente estocástico

  1. Una comparación de dos técnicas de optimización para el entrenamiento discriminativo de secuencias de redes neuronales profundas
  2. Investigación de la optimización estocástica libre de arpillera en redes neuronales profundas para reconocimiento de voz
  3. Descenso de gradiente estocástico de 1 bit y su aplicación a la formación distribuida en paralelo de datos de DNN de voz
  4. Sobre la paralelabilidad de la pendiente de gradiente estocástico para los DNN de voz

Modelos generativos

  1. Modelos generativos y discriminativos profundos para el reconocimiento de voz
  2. Conversión de voz utilizando redes neuronales profundas con entrenamiento generativo de capa inteligente

Extracción y detección de funciones

  1. ¿Deberían las redes neuronales profundas tener orejas? El papel de las características auditivas en los enfoques de aprendizaje profundo
  2. Funciones de difusión espacial para el reconocimiento de voz basado en DNN en entornos ruidosos y reverberantes
  3. Múltiples funciones de fusión de tiempo para modelado de redes neuronales profundas

Análisis y ajuste de escalabilidad y rendimiento

  1. Una investigación de implementación y análisis de rendimiento del sistema de síntesis de voz basado en Dnn
  2. Estrategias de aceleración para el reconocimiento de voz basadas en redes neuronales profundas
  3. Capacitación paralela de redes neuronales profundas para tareas LVCSR con Blue Gene / Q
  4. Reconocimiento continuo de voz de vocabulario grande de primer paso utilizando DNN recurrentes bidireccionales
  5. Redes neuronales convolucionales profundas para tareas de habla a gran escala

Reconocimiento de voz multilingüe y multimodal

  • La relación de la mirada y la pose de la cara: impacto potencial en el reconocimiento del habla
  • Aprendizaje de transferencia de idiomas cruzados para la mejora del habla basada en redes neuronales profundas
  • Conversión de voz dialectal cruzada con redes neuronales

Manejo de ruido

  1. Reconocimiento de voz resistente al ruido utilizando una red neuronal profunda
  2. Seguimiento de tono basado en redes neuronales en un discurso muy ruidoso

Sin categorizar (por ahora)

  1. RASR / NN: el kit de herramientas de red neuronal RWTH para reconocimiento de voz
  2. Una perspectiva histórica del reconocimiento de voz.
  3. Mejora de las redes neuronales profundas para LVCSR mediante el abandono y la reducción de la estructura
  4. Uso de redes de creencias profundas para el reconocimiento de altavoces basado en vectores
  5. Síntesis estadística paramétrica del habla utilizando la red de creencias profundas de distribución múltiple ponderada
  6. Aprendizaje profundo de representaciones ortográficas en babuinos
  7. Adaptación de los altavoces de la red neuronal profunda basada en códigos discriminantes
  8. Aprendizaje profundo del contexto temporal dividido para el reconocimiento automático de voz.
  9. CLASIFICACIÓN DEL CONCEPTO DE AUDIO CON REDES NEURONALES PROFUNDA JERARQUICAS
  10. Un enfoque de aprendizaje profundo para las parametrizaciones basadas en datos para la síntesis estadística del habla paramétrica
  11. Clasificación binaural para la segregación del habla reverberante utilizando redes neuronales profundas
  12. Modelado computacional y validación de la contribución motora a la percepción del habla.
  13. Redes neuronales profundas para sistemas de diálogo hablado
  14. Enfoques de aprendizaje conjunto en reconocimiento de voz
  15. Reconocimiento continuo de voz basado en señal de voz sin formato utilizando redes neuronales convolucionales
  16. Mapeo de características de múltiples fuentes con forma de haz para un reconocimiento de voz superpuesto robusto usando una matriz de micrófonos
  17. Reconocimiento disartrico del habla mediante una red congestionada de cuello de botella
  18. Mapeo entre el ultrasonido y el discurso vocal usando el marco Dnn
  19. Evaluación de desempeño de características de cuello de botella profundo para identificación de lenguaje hablado
  20. Construyendo un conjunto de modelo acústico Cd-dnn-hmm usando bosques aleatorios de árboles de decisión fonética
  21. Adaptación de altavoces del modelo híbrido Nn / hmm para reconocimiento de voz basado en la descomposición de valores singulares
  22. Vinculación de estado basada en árbol de decisión para reconocimiento de voz utilizando incrustaciones derivadas de Dnn
  23. Crecimiento profundo basado en la red Crf para la comprensión del lenguaje hablado
  24. Análisis factorial no negativo de la adaptación de peso del modelo de mezcla gaussiana para el reconocimiento de idioma y dialecto

Como esta área no es muy nueva, comenzaría con algunas implementaciones como CMU Sphinx – Speech Recognition Toolkit, juegue con ella, lea los documentos: ¡algunos conceptos básicos ya están ahí! Así que ve a través del tutorial de inicio para desarrolladores.

También recurren a un libro: “Se recomienda comenzar con un libro de texto sobre tecnologías del habla […]. El procesamiento del lenguaje hablado por Acero, Huang y otros es una buena opción para eso”, así que después de hacer el tutorial continuaría con el libro.