Si empiezo a leer artículos científicos, ¿cuáles son los documentos que deben leerse sobre la conversión de ‘discurso a texto’?

Si no sabes nada sobre el reconocimiento de voz, leer documentos es algo inútil. Debe tener una gran experiencia en el habla y comprender la tecnología subyacente. La mejor manera de familiarizarse con ASR es leer un libro, recomendaría dos buenos:

Procesamiento de lenguaje hablado: una guía de teoría, algoritmo y desarrollo de sistemas: Xuedong Huang, Alex Acero, Hsiao-Wuen Hon: 0076092010418: Amazon.com: Libros

Reconocimiento automático del habla: un enfoque de aprendizaje profundo (tecnología de señales y comunicación): Dong Yu, Li Deng: 9781447157786: Amazon.com: Libros
Esos libros deberían darle una buena comprensión del tema.

Si aún desea una descripción general reciente, probablemente sea una buena idea consultar el siguiente documento de portada:

Una perspectiva histórica del reconocimiento de voz
Por Xuedong Huang, James Baker, Raj Reddy

y, por supuesto, las referencias en el mismo.

académica, Documentos de investigación académicaAprendizaje automáticoCiencias de la computaciónDocumentos académicosinteracción humano-computadoraInvestigaciónInvestigación científicaLecturaPreguntas personalesReconocimiento de voz

¿Cuál es el lenguaje de programación que debo elegir para realizar una investigación en el área de Visión por Computador?

Visión por computadora: ¿Por qué los mejores artículos rara vez son los más citados?

¿Qué tan importante es el álgebra lineal en informática, es decir, cómo se interrelacionan los dos?

¿Cuáles son algunas historias de éxito para Bayesian Networks?

¿Cómo se generan, asignan y usan las frecuencias IRQ en una computadora?

¿Por qué 1366 x 768 se convirtió en una resolución de pantalla de computadora portátil tan común?

Considerando el brote de Deep Learning, aquí hay un blog que enumera los documentos en ASR wrt deep learning:

DeepLearning.University – Una bibliografía anotada de aprendizaje profundo

Solo estoy agregando el material del blog

Modelado Acústico

Aumento del tamaño del modelo acústico de la red neuronal profunda para el reconocimiento de voz continuo de vocabulario grande
Cuantificación de vectores de aprendizaje profundo para recuperación de información acústica
Una tubería de aprendizaje profundo para la comprensión de imágenes y el modelado acústico
Mejora de modelos acústicos de redes neuronales profundas utilizando redes maxout generalizadas
Entrenamiento de contracción de límites para modelos acústicos basados en redes neuronales profundas discretas
Mejora del modelo acústico para el sistema de reconocimiento de voz continuo de gran vocabulario vietnamita con características de cuello de botella profundo
Reconocimiento fonotáctico del lenguaje basado en el modelo acústico Dnn-hmm

Fonema y reconocimiento y segmentación de teléfonos

Codificador automático contrastante para reconocimiento de fonemas
Investigación sobre capas ocultas de redes neuronales profundas en reconocimiento de fonemas
Inferencia y clasificación conjunta de segmentación de fonemas utilizando CRF
Etiquetado de datos de secuencia no segmentados con Dnn-hmm y su aplicación para reconocimiento de voz
Detección de atributos de voz en varios idiomas y reconocimiento telefónico para tibetanos mediante el aprendizaje profundo
Un enfoque de fusión para la identificación del lenguaje hablado basado en la combinación de múltiples reconocedores telefónicos y detectores de atributos del habla
Modelos basados en parches de bordes de espectrograma para clasificación de teléfonos
Contexto fino, redes neuronales profundas softplus de bajo rango para reconocimiento de voz móvil

Reconocimiento de emociones

Aprendizaje profundo para el reconocimiento emocional del habla
Reconocimiento hablado de emociones usando aprendizaje profundo
Mejora del rendimiento de generación del reconocimiento de emociones del habla mediante la eliminación de ruido de autoencoders
Reconocimiento de Emociones del Habla Usando Cnn

Optimización y descenso de gradiente estocástico

Una comparación de dos técnicas de optimización para el entrenamiento discriminativo de secuencias de redes neuronales profundas
Investigación de la optimización estocástica libre de arpillera en redes neuronales profundas para reconocimiento de voz
Descenso de gradiente estocástico de 1 bit y su aplicación a la formación distribuida en paralelo de datos de DNN de voz
Sobre la paralelabilidad de la pendiente de gradiente estocástico para los DNN de voz

Modelos generativos

Modelos generativos y discriminativos profundos para el reconocimiento de voz
Conversión de voz utilizando redes neuronales profundas con entrenamiento generativo de capa inteligente

Extracción y detección de funciones

¿Deberían las redes neuronales profundas tener orejas? El papel de las características auditivas en los enfoques de aprendizaje profundo
Funciones de difusión espacial para el reconocimiento de voz basado en DNN en entornos ruidosos y reverberantes
Múltiples funciones de fusión de tiempo para modelado de redes neuronales profundas

Análisis y ajuste de escalabilidad y rendimiento

Una investigación de implementación y análisis de rendimiento del sistema de síntesis de voz basado en Dnn
Estrategias de aceleración para el reconocimiento de voz basadas en redes neuronales profundas
Capacitación paralela de redes neuronales profundas para tareas LVCSR con Blue Gene / Q
Reconocimiento continuo de voz de vocabulario grande de primer paso utilizando DNN recurrentes bidireccionales
Redes neuronales convolucionales profundas para tareas de habla a gran escala

Reconocimiento de voz multilingüe y multimodal

La relación de la mirada y la pose de la cara: impacto potencial en el reconocimiento del habla
Aprendizaje de transferencia de idiomas cruzados para la mejora del habla basada en redes neuronales profundas
Conversión de voz dialectal cruzada con redes neuronales

Manejo de ruido

Reconocimiento de voz resistente al ruido utilizando una red neuronal profunda
Seguimiento de tono basado en redes neuronales en un discurso muy ruidoso

Sin categorizar (por ahora)

RASR / NN: el kit de herramientas de red neuronal RWTH para reconocimiento de voz
Una perspectiva histórica del reconocimiento de voz.
Mejora de las redes neuronales profundas para LVCSR mediante el abandono y la reducción de la estructura
Uso de redes de creencias profundas para el reconocimiento de altavoces basado en vectores
Síntesis estadística paramétrica del habla utilizando la red de creencias profundas de distribución múltiple ponderada
Aprendizaje profundo de representaciones ortográficas en babuinos
Adaptación de los altavoces de la red neuronal profunda basada en códigos discriminantes
Aprendizaje profundo del contexto temporal dividido para el reconocimiento automático de voz.
CLASIFICACIÓN DEL CONCEPTO DE AUDIO CON REDES NEURONALES PROFUNDA JERARQUICAS
Un enfoque de aprendizaje profundo para las parametrizaciones basadas en datos para la síntesis estadística del habla paramétrica
Clasificación binaural para la segregación del habla reverberante utilizando redes neuronales profundas
Modelado computacional y validación de la contribución motora a la percepción del habla.
Redes neuronales profundas para sistemas de diálogo hablado
Enfoques de aprendizaje conjunto en reconocimiento de voz
Reconocimiento continuo de voz basado en señal de voz sin formato utilizando redes neuronales convolucionales
Mapeo de características de múltiples fuentes con forma de haz para un reconocimiento de voz superpuesto robusto usando una matriz de micrófonos
Reconocimiento disartrico del habla mediante una red congestionada de cuello de botella
Mapeo entre el ultrasonido y el discurso vocal usando el marco Dnn
Evaluación de desempeño de características de cuello de botella profundo para identificación de lenguaje hablado
Construyendo un conjunto de modelo acústico Cd-dnn-hmm usando bosques aleatorios de árboles de decisión fonética
Adaptación de altavoces del modelo híbrido Nn / hmm para reconocimiento de voz basado en la descomposición de valores singulares
Vinculación de estado basada en árbol de decisión para reconocimiento de voz utilizando incrustaciones derivadas de Dnn
Crecimiento profundo basado en la red Crf para la comprensión del lenguaje hablado
Análisis factorial no negativo de la adaptación de peso del modelo de mezcla gaussiana para el reconocimiento de idioma y dialecto

Alexey Grigorev

Como esta área no es muy nueva, comenzaría con algunas implementaciones como CMU Sphinx – Speech Recognition Toolkit, juegue con ella, lea los documentos: ¡algunos conceptos básicos ya están ahí! Así que ve a través del tutorial de inicio para desarrolladores.

También recurren a un libro: “Se recomienda comenzar con un libro de texto sobre tecnologías del habla […]. El procesamiento del lenguaje hablado por Acero, Huang y otros es una buena opción para eso”, así que después de hacer el tutorial continuaría con el libro.

Nickolay Shmyrev

More Interesting

Ciencias de la Computación: ¿Cuán competitivo es el premio al mejor trabajo estudiantil en SODA?

¿Cuáles son las empresas / instituciones académicas que trabajan en compiladores?

¿Cuánto conocimiento sobre circuito (o VLSI) se necesita para investigar en el campo de la arquitectura de computadoras?

¿Cuáles son los temas de investigación actuales sobre computación en la nube?

¿Cuánto trabajo se ha hecho para identificar acentos algorítmicamente?

¿Ha habido nuevos avances en las tablas hash distribuidas?

¿Qué campo tiene la investigación más interesante?

¿Cómo difieren la optimización bayesiana y el aprendizaje activo?

¿Cuáles son actualmente las mayores exageraciones en informática y cuáles con razón?

¿Cuál es la mejor manera de mostrar resultados para un trabajo de informática?