La solución directa es utilizar la memoria a corto plazo (LSTM) como lo hizo (Wand et al., 2016) [1]. Él construyó un modelo para reconocer las palabras de los videos que contienen hablantes. Su modelo consiste en una capa de avance seguido de dos LSTM. La capa de salida es softmax con 51 unidades para clasificar 51 palabras diferentes.
Otro enfoque lo realiza (Assael et al, 2016) [2] que utilizó una combinación de Convoluciones espacio-temporales y Unidad recurrente cerrada (GRU)
- ¿Cuál es el atractivo de Python para ML y aplicaciones científicas en general?
- ¿En qué áreas de la banca / finanzas se utiliza el aprendizaje automático?
- ¿Puedo crear un conjunto de datos y luego usarlo para evaluar un algoritmo de clasificación?
- ¿Cuán sensible es el análisis de componentes independientes (ICA) a la simultaneidad de la señal de entrada?
- ¿Cómo deciden los científicos computacionales qué estrategia usar para la validación cruzada?
Figura 1: arquitectura de LipNet. Se utiliza una secuencia de tramas T como entrada, y es procesada por 3 capas de STCNN, cada una seguida de una capa espacial de agrupación máxima. Las características extraídas son procesadas por 2 Bi-GRU; cada paso de tiempo de la salida GRU es procesado por una capa lineal y un softmax. Este modelo de extremo a extremo está entrenado con CTC.
Notas al pie
[1] [1601.08188] Lectura de labios con memoria larga a corto plazo
[2] Lectura de labios de nivel de oración de extremo a extremo