¿Cuál es el algoritmo utilizado por Google para la búsqueda por voz e imagen?

Gracias por el A2A.

Palabras clave:
GMMs – Modelo de mezcla gaussiana
HMMs – Modelo oculto de Markov
DNNs – Redes neuronales profundas
PLP: características predictivas lineales perceptuales
MFCC – Coeficientes Mel Freq Cepstarl

Preparación de datos y capacitación:
Google utiliza modelos híbridos como GMM-HMM y DNN-HMM. Utilizan una gran cantidad de datos de entrenamiento (~ 100 horas) para realizar el entrenamiento. Se extraen características acústicas como PLP, MFCC y sus derivados. Las transcripciones de nivel de fonema son dadas por un experto fonético. Inicialmente, no se conoce el momento de estos fonemas con respecto a la señal acústica (aprendizaje semi-supervisado). El inicio plano se realiza primero seguido de una reestimación incorporada (un Algoritmo de Expectación-Maximización generalizado conocido como Algoritmo de Baum-Welch) y se obtienen las alineaciones de estado correspondientes. (Un estado en un HMM se refiere a algún proceso estacionario. En la forma de onda es solo un marco pequeño, una aproximación bastante buena)

Reconocimiento en línea:
Cuando realiza una búsqueda por voz, las mismas características acústicas se extraen de su voz y se estima la secuencia de estados HMM. Un algoritmo conocido como Algoritmo de Viterbi explora los posibles estados y encuentra la secuencia de estado más probable, que resulta ser la palabra que pronunció.

Adaptación:
    La forma en que un indio pronuncia una palabra en inglés es diferente de la forma en que la pronuncia un hablante de mandarín. De hecho, los acentos dentro de la India pueden variar mucho. Se necesita hacer una cierta cantidad de adaptación. Por lo tanto, se llevan a cabo muchas técnicas de normalización para manejar patrones acústicos que no se han visto antes.

Aquí hay algunos artículos publicados por personas de Google
Página en googleusercontent.com – Adaptación
Página en googleusercontent.com – Capacitación basada en DNN
Página en googleusercontent.com – Modelos acústicos DNN