Gracias por el A2A, estoy realmente honrado.
Lo interesante de este enfoque es que en realidad no es un “modelo único”, es una especie de modelo modular con diferentes módulos, en el documento se conoce como MultiModel.
Primero permítanme resumir algunos puntos clave del artículo.
El MultiModel consta principalmente de tres partes:
- Codificador que codifica las entradas.
- Decodificador autorregresivo que calcula las salidas.
- Mezclador de entrada / salida (E / S) que mezcla las entradas y salidas.
Con el codificador y decodificador construido utilizando 3 bloques computacionales, a saber.
- Convoluciones
- Atención
- Mezcla de modelos escasamente cerrada [1] (MoE)
La entrada en el codificador es procesada por modelos especializados conocidos como redes de modalidad que en MultiModel consisten en:
- Idioma
- Imagen
- categórico
- Audio
Redes de modalidad.
Esas redes de modalidad actúan como expertos especializados para extraer funciones para tareas específicas. Ayudan al codificador a mapear cada entrada en una representación conjunta que luego se mezcla con la salida anterior por el mezclador de E / S y luego el resultado se envía al decodificador autorregresivo que calcula la salida.
Este enfoque se asemeja a la forma en que los cerebros biológicos procesan los estímulos naturales.
- Dado el hecho de que el mundo natural tiene una amplia gama de señales que van desde el sonido, el tacto, el olfato, la vista y el oído, es importante tener áreas especializadas dentro del cerebro para manejar cada estímulo específico. Las redes de modalidad en MultiModel son análogas a estas áreas cerebrales especializadas. Una red de modalidad de imagen es análoga a la corteza visual primaria, la red de modalidad de lenguaje es análoga a los centros del habla del cerebro y así sucesivamente.
- En los cerebros biológicos, una señal de entrada normalmente se dirige al área del cerebro que puede procesar mejor esos estímulos. También podemos ver esto en la llamada mezcla de modelos escasamente cerrada que selecciona a los expertos (que son básicamente redes neuronales típicas) que se adaptan mejor al procesamiento de los estímulos de entrada. Este enrutamiento de información puede mejorar el rendimiento (conservar la energía en entidades biológicas) porque los módulos menos adaptados a los estímulos específicos pueden permanecer apagados, al igual que cuando las áreas faciales del cerebro humano se activan cuando una cara es visible mientras otras áreas permanecen apagadas.
- El mezclador de E / S actúa como una conexión de retroalimentación (recurrente) que mezcla las salidas del decodificador y las entradas codificadas. Esto es análogo a la forma en que podemos monitorear nuestras propias acciones. Por lo tanto, el mezclador de E / S actúa de manera similar a una red recurrente que hace que este modelo se complete de alguna manera, es decir, puede aprender cualquier función computacional. Es como una red recurrente con esteroides.
Basado en estas similitudes con la arquitectura biológica, creo que este enfoque es interesante de muchas maneras:
- Respeta el hecho de que no hay almuerzo gratis [2]. Es un hecho bien conocido que un algoritmo que sea bueno en un conjunto específico de tareas pagará eso si se desempeña mal en el conjunto restante de tareas. En este caso, tenemos estas redes de modalidad que se complementan entre sí para desempeñarse bien en múltiples tareas en diferentes dominios. Por ejemplo, la señal de imagen se codifica mejor con la modalidad de imagen net, mientras que el idioma se codifica mejor con la modalidad de idioma net y así sucesivamente.
- Todas las redes de modalidad son solo detectores de características especializadas que ayudan al codificador a mapear cada entrada de dominio en una representación unificada o conjunta. Esto es poderoso en el sentido de que los diferentes tipos de entradas, como el habla, las imágenes, el idioma, etc., se asignan a la misma representación, lo que facilita el uso compartido de funciones pesadas. Esto se logra a través del modelo codificador-decodificador con atención similar al modelo de traducción automática neuronal (NMT). Sin embargo, esto es más una generalización del modelo codificador-decodificador porque el codificador se alimenta de diferentes tipos de entradas a diferencia de los enfoques monolíticos convencionales. El uso de representaciones conjuntas permite más interacciones entre características de diferentes dominios, lo que resulta en una mejor transferencia de aprendizaje de un dominio a otro.
- Debido a este poderoso aprendizaje de transferencia, es posible usar menos datos de entrenamiento ya que si usamos datos de diferentes dominios, se formará una representación unificada basada en todos los datos de diferentes dominios. Esto significa que, en lugar de usar, por ejemplo, millones de ejemplos de imágenes, podemos reducirlo a unos pocos miles, ya que la representación conjunta transferirá algunas de las características de, por ejemplo, las características del lenguaje que aprendieron de los datos del lenguaje. Por lo tanto, este enfoque puede ser útil para entrenar modelos en conjuntos de datos más pequeños de cada dominio.
- El hecho de que haya una estructura para enrutar específicamente la señal utilizando el enfoque MoE hace posible escalar dicho modelo a muchas tareas a gran escala. Los MoEs usan lo que se conoce como cómputo condicional por el cual la manera en que se procesa la señal se basa en condiciones tales como:
- El tipo de señal, por ejemplo, la señal visual debe ser procesada por un modelo visual mientras que el audio por un modelo de audio.
- Subtipos que pueden ser específicos del dominio. Por ejemplo, los sonidos pueden clasificarse en otros subgrupos, como música, voz humana, canciones de pájaros, etc., todos los cuales pueden ser procesados de manera condicional por módulos especializados.
Veo que dicho modelo se aplica en las interfaces hombre-computadora (HCI) porque un sistema HCI debería ser capaz de manejar diferentes dominios como:
- Reconocimiento de voz
- Reconocimiento facial
- Reconocimiento de voz
- Síntesis del habla (para comunicarse naturalmente con el humano)
- Comprensión del lenguaje
- Reconocimiento de imagen
El MultiModel puede ser entrenado en todos estos dominios conjuntamente como en el documento y luego desplegado como la tecnología oculta que impulsa la HCI.
Tal HCI se puede aplicar para manejar el soporte al cliente en la mayoría de las empresas, por ejemplo. Tenemos chatbots limitados solo a la comprensión del lenguaje natural (PNL), pero tal HCI puede funcionar con todos los sentidos disponibles y, por lo tanto, puede interactuar naturalmente con los humanos.
Es muy interesante leer sobre este trabajo, pero creo que hay algunos problemas que pueden dañar este modelo:
- El uso de una representación unificada puede ser útil para transferir representaciones aprendidas de un dominio a otro, pero también puede dañar el sistema de alguna manera. La representación unificada podría intentar optimizar para dos o más objetivos opuestos, por ejemplo, una característica compartida podría establecerse a mitad de camino entre estar totalmente comprometido con la representación visual o de audio. Esto puede afectar el rendimiento y realmente el MultiModel no logró un rendimiento de vanguardia en muchas tareas, pero mostró resultados interesantes que pueden mejorarse en el trabajo futuro posterior.
- Esta es una excelente dirección de investigación, sin embargo, el MultiModel todavía depende de modelos diferenciables. Esta dependencia de modelos diferenciables persigue a todo el campo moderno de aprendizaje automático. Creo que a medida que el trabajo futuro avance hacia modelos de aprendizaje alternativos, sería interesante revisar este enfoque.
- Este modelo parece una oportunidad para un modelo de aprendizaje general, sin embargo, no puede lograr un aprendizaje gradual, ya que es posible que la representación unificada cambie cada vez que el modelo aprende algo nuevo. Esto inevitablemente puede afectar el rendimiento en otras tareas previamente aprendidas, especialmente cuando la representación unificada cambia dramáticamente. Esto puede remediarse congelando las vías por las que pasa la mayoría del tráfico de señales para que la representación no cambie drásticamente.
Creo que muchos investigadores no están muy sorprendidos por esta dirección de investigación debido al hecho de que el teorema de no almuerzo gratis ha dictado durante mucho tiempo la necesidad de tales enfoques modulares o multimodelos. Aunque es muy interesante ver a los mejores laboratorios siguiendo una dirección de investigación tan interesante. Debido a este trabajo, un enfoque tan prometedor definitivamente verá más innovaciones similares en el futuro.
Veo tales enfoques modulares como el único camino hacia sistemas más inteligentes. Pero solo tenemos que agregar una cosa más:
También usemos modelos diferenciables y no diferenciables en una estructura marco unificada.
Espero que esto ayude.
Notas al pie
[1] https://arxiv.org/pdf/1701.06538 …
[2] No hay teorema del almuerzo gratis – Wikipedia