¿Qué redes neuronales se han diseñado para leer los labios?

La solución directa es utilizar la memoria a corto plazo (LSTM) como lo hizo (Wand et al., 2016) [1]. Él construyó un modelo para reconocer las palabras de los videos que contienen hablantes. Su modelo consiste en una capa de avance seguido de dos LSTM. La capa de salida es softmax con 51 unidades para clasificar 51 palabras diferentes.

Otro enfoque lo realiza (Assael et al, 2016) [2] que utilizó una combinación de Convoluciones espacio-temporales y Unidad recurrente cerrada (GRU)

Figura 1: arquitectura de LipNet. Se utiliza una secuencia de tramas T como entrada, y es procesada por 3 capas de STCNN, cada una seguida de una capa espacial de agrupación máxima. Las características extraídas son procesadas por 2 Bi-GRU; cada paso de tiempo de la salida GRU es procesado por una capa lineal y un softmax. Este modelo de extremo a extremo está entrenado con CTC.

Notas al pie

[1] [1601.08188] Lectura de labios con memoria larga a corto plazo

[2] Lectura de labios de nivel de oración de extremo a extremo

More Interesting

¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?

¿Qué son los SVM?

¿Qué paquete de aprendizaje profundo es el mejor?

¿Cuáles son los dominios en los que las técnicas de aprendizaje profundo podrían aplicarse además del procesamiento de la visión por computadora y el lenguaje / habla?

¿Por qué un niño de 6 años puede realizar tareas de reconocimiento de objetos mejor que una red neuronal distribuida a gran escala con decenas de miles de núcleos de CPU, pero incluso un cerebro adulto no puede competir con un procesador anticuado cuando se trata de cálculos de procedimientos? ¿Qué falta en nuestro procesador?

¿Cómo se compara Scikit Learn con R (en términos de velocidad, conveniencia y potencia)?

¿Es la tasa de falso rechazo (FRR) similar a la tasa de falsos positivos (FPR)? Entonces, si es similar, ¿por qué hay disponibles diferentes definiciones para cada una de ellas?

¿Qué es un método de kernel en el contexto del aprendizaje automático?

¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?

¿Cómo puedo explicar el hecho de que el aprendizaje por transferencia ofrece un mejor rendimiento que el entrenamiento estándar?

¿Qué debo aprender en Data Science para ayudar a mi startup?

¿Cuáles son algunas historias de éxito para Dirichlet Process Clustering?

Cómo saber si Deep Learning funcionará mejor para un problema específico, que SVM o bosque aleatorio

Cómo encontrar la correlación más fuerte entre los vectores de colores a continuación en MATLAB o Python

¿Cuáles son algunas aplicaciones del aprendizaje automático y la inteligencia artificial para los datos de detección remota basados ​​en el espacio y los SIG?