¿Cuáles son los algoritmos clásicos de aprendizaje automático similares a los modelos de secuencia a secuencia?

Como ha mencionado Mundher Alshabi, los HMM son uno de esos modelos. Sin embargo, los HMM son modelos bastante simples, que generan una etiqueta por token de entrada y solo manejan las entradas en orden. Por lo tanto, no se pueden usar para tareas como la traducción automática.

Un enfoque alternativo es el modelo de canal ruidoso, que básicamente utiliza herramientas estadísticas para generar la secuencia objetivo a partir de la secuencia fuente.

Una clase más poderosa de modelos son los transductores de estado finito. Esencialmente, es una extensión de autómatas de estado finito:

  • Un autómata de estado finito (FSA) tiene un conjunto de estados, y para cada estado, hay bordes que lo llevan de ese estado a un nuevo estado, según el token. A medida que atraviesas tu entrada, cada token corresponde a una transición en el espacio de estados, dándote una secuencia de estados.
  • Un transductor de estado finito (FST) es casi lo mismo que un FSA, excepto que en cada borde, además de pasar de un estado a otro, también tiene un token de salida. Entonces, cuando te mueves a lo largo del espacio de estado para una entrada dada siguiendo los bordes, también obtienes una secuencia de salida.
  • Un FST ponderado (WFST) tiene la misma estructura que un FST, pero cada borde de transición tiene un peso asociado. Entonces, para una secuencia de entrada dada, obtienes múltiples secuencias de salida, cada una asociada con un peso (que es equivalente a la probabilidad de generar esa secuencia de salida).

Al componer muchos FST, puede crear secuencias complejas para secuenciar modelos. Por ejemplo, este documento – Traducción automática de estadística a gran escala con transductores de estado finito ponderado – compone un modelo de lenguaje, modelos de segmentación de la frase, un modelo de reordenamiento y un modelo de inserción, cada uno modelado como un FST para generar un sistema de traducción.

De hecho, Google actualmente usa un modelo ponderado basado en FST para la transliteración en su Teclado de Google: entrada de teclado móvil transliterada a través de transductores de estado finito ponderados.

[Fuente de la imagen: Blog de investigación de TIC de John Salatas]

Modelo oculto de Markov (HMM), durante años fue el modelo “ir a” para datos secuenciales. El HMM es el tipo de modelo de Markov con estados ocultos. Se llama Markov porque el estado actual depende solo del estado de las vistas previas. Puede pensarlo como LSTM pero con estados ocultos en lugar de celdas LSTM.