¿Qué piensan los investigadores del aprendizaje automático del enfoque de “un modelo para aprenderlos a todos”?

Me gustó la idea de una red genérica que combine muchas modalidades diferentes, pero aún más la posibilidad de que se puedan adquirir múltiples interpretaciones del mismo concepto en todas las modalidades, idealmente de manera débilmente supervisada.

Después de todo, esa es la queja clave que tienen los líderes de la generación anterior de IA, como Noam Chomsky: las máquinas siempre serán inferiores en la PNL, porque manipulan símbolos superficiales. No “realmente saben” qué significa el símbolo “gato”: mientras que los humanos saben cómo suena un “gato”, cómo se ve, cómo se mueve su cuerpo, cómo se siente cuando lo tocamos, cómo se espera comportarse en un entorno determinado, cómo interactúa con otros seres vivos y no vivos.

Menos idealmente, piense en un caso en el que la parte de reconocimiento visual de la red nunca haya sido entrenada en un “guepardo”, pero las partes de la PNL han “aprendido” de las bases de texto en las que fueron entrenados que se supone que un guepardo parece un tigre pero con manchas en su cuerpo en lugar de rayas, y esto permite que la red reconozca visualmente al guepardo en las imágenes. Aprendizaje sin disparos, sin construir una máquina altamente diseñada específicamente para el aprendizaje sin disparos.

Desafortunadamente, en su forma actual, el papel está medio cocido y los resultados no son claros en absoluto. Por ejemplo, el resultado más emocionante en el documento es la Tabla 3, donde muestran que su red entrenada solo para la tarea de “análisis de token” cuando se prueba para “análisis de token” arroja una precisión del 97.1%, mientras que la misma red entrenada conjuntamente en el análisis de tokens y la clasificación de imágenes producen un 97.5% para el análisis de tokens. Aún así, se obtienen mejores resultados (97.9%) para el “análisis de tokens” cuando se entrena en las 8 tareas (principalmente traducción de idiomas). Los autores afirman que algún tipo de transferencia de superdominio es responsable de estas ganancias en la precisión de la tarea de “análisis de tokens”. Sin embargo, ni siquiera mencionan, y mucho menos experimentan a fondo, ¡la justificación más probable de que múltiples tareas simplemente regularizan mejor la capacitación y evitan el sobreajuste [por ejemplo, dando a cada tarea una capacidad de aprendizaje menor en la mezcla de expertos]!

Con todo, no compro el caso de utilidad práctica, que las personas deberían usar una sola arquitectura de red genérica sin importar la modalidad que estén usando. El cerebro humano, tan elástico como es, parece tener estructuras anatómicas físicamente distintas, que son responsables de diferentes tareas; incluso si, en circunstancias peculiares, las estructuras cerebrales irrelevantes aprenden tareas que en casos normales no serían suyas para aprender. Por otro lado, podría (y realmente quiero) creer que este tipo de arquitectura es la columna vertebral de un sistema AGI, pero el borrador actual (versión inicial de arXiv) no llega tan lejos. Sin embargo, tengo grandes expectativas del equipo y me encanta cómo combinaron muchas de sus últimas ideas detalladas en otros documentos recientes de arXiv en una sola arquitectura casi coherente.

La versión final de este documento después de la revisión por pares ciertamente será mucho mejor, incluso si esta presentación de arXiv solo está allí para plantar banderas.

Gracias por el A2A, estoy realmente honrado.

Lo interesante de este enfoque es que en realidad no es un “modelo único”, es una especie de modelo modular con diferentes módulos, en el documento se conoce como MultiModel.


Primero permítanme resumir algunos puntos clave del artículo.

El MultiModel consta principalmente de tres partes:

  • Codificador que codifica las entradas.
  • Decodificador autorregresivo que calcula las salidas.
  • Mezclador de entrada / salida (E / S) que mezcla las entradas y salidas.

Con el codificador y decodificador construido utilizando 3 bloques computacionales, a saber.

  • Convoluciones
  • Atención
  • Mezcla de modelos escasamente cerrada [1] (MoE)

La entrada en el codificador es procesada por modelos especializados conocidos como redes de modalidad que en MultiModel consisten en:

  • Idioma
  • Imagen
  • categórico
  • Audio

Redes de modalidad.

Esas redes de modalidad actúan como expertos especializados para extraer funciones para tareas específicas. Ayudan al codificador a mapear cada entrada en una representación conjunta que luego se mezcla con la salida anterior por el mezclador de E / S y luego el resultado se envía al decodificador autorregresivo que calcula la salida.


Este enfoque se asemeja a la forma en que los cerebros biológicos procesan los estímulos naturales.

  • Dado el hecho de que el mundo natural tiene una amplia gama de señales que van desde el sonido, el tacto, el olfato, la vista y el oído, es importante tener áreas especializadas dentro del cerebro para manejar cada estímulo específico. Las redes de modalidad en MultiModel son análogas a estas áreas cerebrales especializadas. Una red de modalidad de imagen es análoga a la corteza visual primaria, la red de modalidad de lenguaje es análoga a los centros del habla del cerebro y así sucesivamente.
  • En los cerebros biológicos, una señal de entrada normalmente se dirige al área del cerebro que puede procesar mejor esos estímulos. También podemos ver esto en la llamada mezcla de modelos escasamente cerrada que selecciona a los expertos (que son básicamente redes neuronales típicas) que se adaptan mejor al procesamiento de los estímulos de entrada. Este enrutamiento de información puede mejorar el rendimiento (conservar la energía en entidades biológicas) porque los módulos menos adaptados a los estímulos específicos pueden permanecer apagados, al igual que cuando las áreas faciales del cerebro humano se activan cuando una cara es visible mientras otras áreas permanecen apagadas.
  • El mezclador de E / S actúa como una conexión de retroalimentación (recurrente) que mezcla las salidas del decodificador y las entradas codificadas. Esto es análogo a la forma en que podemos monitorear nuestras propias acciones. Por lo tanto, el mezclador de E / S actúa de manera similar a una red recurrente que hace que este modelo se complete de alguna manera, es decir, puede aprender cualquier función computacional. Es como una red recurrente con esteroides.

Basado en estas similitudes con la arquitectura biológica, creo que este enfoque es interesante de muchas maneras:

  • Respeta el hecho de que no hay almuerzo gratis [2]. Es un hecho bien conocido que un algoritmo que sea bueno en un conjunto específico de tareas pagará eso si se desempeña mal en el conjunto restante de tareas. En este caso, tenemos estas redes de modalidad que se complementan entre sí para desempeñarse bien en múltiples tareas en diferentes dominios. Por ejemplo, la señal de imagen se codifica mejor con la modalidad de imagen net, mientras que el idioma se codifica mejor con la modalidad de idioma net y así sucesivamente.
  • Todas las redes de modalidad son solo detectores de características especializadas que ayudan al codificador a mapear cada entrada de dominio en una representación unificada o conjunta. Esto es poderoso en el sentido de que los diferentes tipos de entradas, como el habla, las imágenes, el idioma, etc., se asignan a la misma representación, lo que facilita el uso compartido de funciones pesadas. Esto se logra a través del modelo codificador-decodificador con atención similar al modelo de traducción automática neuronal (NMT). Sin embargo, esto es más una generalización del modelo codificador-decodificador porque el codificador se alimenta de diferentes tipos de entradas a diferencia de los enfoques monolíticos convencionales. El uso de representaciones conjuntas permite más interacciones entre características de diferentes dominios, lo que resulta en una mejor transferencia de aprendizaje de un dominio a otro.
  • Debido a este poderoso aprendizaje de transferencia, es posible usar menos datos de entrenamiento ya que si usamos datos de diferentes dominios, se formará una representación unificada basada en todos los datos de diferentes dominios. Esto significa que, en lugar de usar, por ejemplo, millones de ejemplos de imágenes, podemos reducirlo a unos pocos miles, ya que la representación conjunta transferirá algunas de las características de, por ejemplo, las características del lenguaje que aprendieron de los datos del lenguaje. Por lo tanto, este enfoque puede ser útil para entrenar modelos en conjuntos de datos más pequeños de cada dominio.
  • El hecho de que haya una estructura para enrutar específicamente la señal utilizando el enfoque MoE hace posible escalar dicho modelo a muchas tareas a gran escala. Los MoEs usan lo que se conoce como cómputo condicional por el cual la manera en que se procesa la señal se basa en condiciones tales como:
  • El tipo de señal, por ejemplo, la señal visual debe ser procesada por un modelo visual mientras que el audio por un modelo de audio.
  • Subtipos que pueden ser específicos del dominio. Por ejemplo, los sonidos pueden clasificarse en otros subgrupos, como música, voz humana, canciones de pájaros, etc., todos los cuales pueden ser procesados ​​de manera condicional por módulos especializados.

Veo que dicho modelo se aplica en las interfaces hombre-computadora (HCI) porque un sistema HCI debería ser capaz de manejar diferentes dominios como:

  • Reconocimiento de voz
  • Reconocimiento facial
  • Reconocimiento de voz
  • Síntesis del habla (para comunicarse naturalmente con el humano)
  • Comprensión del lenguaje
  • Reconocimiento de imagen

El MultiModel puede ser entrenado en todos estos dominios conjuntamente como en el documento y luego desplegado como la tecnología oculta que impulsa la HCI.

Tal HCI se puede aplicar para manejar el soporte al cliente en la mayoría de las empresas, por ejemplo. Tenemos chatbots limitados solo a la comprensión del lenguaje natural (PNL), pero tal HCI puede funcionar con todos los sentidos disponibles y, por lo tanto, puede interactuar naturalmente con los humanos.


Es muy interesante leer sobre este trabajo, pero creo que hay algunos problemas que pueden dañar este modelo:

  • El uso de una representación unificada puede ser útil para transferir representaciones aprendidas de un dominio a otro, pero también puede dañar el sistema de alguna manera. La representación unificada podría intentar optimizar para dos o más objetivos opuestos, por ejemplo, una característica compartida podría establecerse a mitad de camino entre estar totalmente comprometido con la representación visual o de audio. Esto puede afectar el rendimiento y realmente el MultiModel no logró un rendimiento de vanguardia en muchas tareas, pero mostró resultados interesantes que pueden mejorarse en el trabajo futuro posterior.
  • Esta es una excelente dirección de investigación, sin embargo, el MultiModel todavía depende de modelos diferenciables. Esta dependencia de modelos diferenciables persigue a todo el campo moderno de aprendizaje automático. Creo que a medida que el trabajo futuro avance hacia modelos de aprendizaje alternativos, sería interesante revisar este enfoque.
  • Este modelo parece una oportunidad para un modelo de aprendizaje general, sin embargo, no puede lograr un aprendizaje gradual, ya que es posible que la representación unificada cambie cada vez que el modelo aprende algo nuevo. Esto inevitablemente puede afectar el rendimiento en otras tareas previamente aprendidas, especialmente cuando la representación unificada cambia dramáticamente. Esto puede remediarse congelando las vías por las que pasa la mayoría del tráfico de señales para que la representación no cambie drásticamente.

Creo que muchos investigadores no están muy sorprendidos por esta dirección de investigación debido al hecho de que el teorema de no almuerzo gratis ha dictado durante mucho tiempo la necesidad de tales enfoques modulares o multimodelos. Aunque es muy interesante ver a los mejores laboratorios siguiendo una dirección de investigación tan interesante. Debido a este trabajo, un enfoque tan prometedor definitivamente verá más innovaciones similares en el futuro.

Veo tales enfoques modulares como el único camino hacia sistemas más inteligentes. Pero solo tenemos que agregar una cosa más:

También usemos modelos diferenciables y no diferenciables en una estructura marco unificada.

Espero que esto ayude.

Notas al pie

[1] https://arxiv.org/pdf/1701.06538

[2] No hay teorema del almuerzo gratis – Wikipedia

More Interesting

Cómo encontrar un puente en un gráfico

¿Qué pasaría si ponemos Machine Learning en la salida de un Randomizer y le damos toda la información que utiliza el Randomizer?

¿Puede un modelo de aprendizaje automático utilizar múltiples algoritmos como la regresión logística, las redes neuronales y los árboles de decisión al mismo tiempo?

¿Cuáles son algunas de las mejores prácticas para construir modelos de aprendizaje automático de múltiples pasos? Cuando la salida de los modelos ML de nivel inferior se convierte en entrada para el modelo de nivel superior, ¿cómo minimizaría el error y mejoraría la precisión?

¿Qué papel crucial juegan las computadoras en la educación?

Teoría de la complejidad computacional: ¿Encontrar todos los nodos en una red es un problema NP conocido?

¿Qué (bloques de hardware) hace que las GPU sean buenas para el aprendizaje profundo (qué tipo de cálculo)?

¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?

¿Qué podemos esperar del aprendizaje automático en el futuro?

Cómo extraer títulos de trabajo de los perfiles públicos de LinkedIn para mi base de datos de ventas de más de 100k

¿La tecnología de Key-Value Store como Redis reemplazará completamente la tecnología de base de datos o MongoDB en el futuro cercano?

¿Cuáles son los atajos menos conocidos en las computadoras?

¿Binus enseña Machine Learning a sus estudiantes universitarios?

¿Esto ilustra el problema de detención?

Cómo abordar los problemas en SPOJ (lea los detalles)