¿Qué piensan los investigadores del aprendizaje automático del enfoque de “un modelo para aprenderlos a todos”?

Me gustó la idea de una red genérica que combine muchas modalidades diferentes, pero aún más la posibilidad de que se puedan adquirir múltiples interpretaciones del mismo concepto en todas las modalidades, idealmente de manera débilmente supervisada.

Después de todo, esa es la queja clave que tienen los líderes de la generación anterior de IA, como Noam Chomsky: las máquinas siempre serán inferiores en la PNL, porque manipulan símbolos superficiales. No “realmente saben” qué significa el símbolo “gato”: mientras que los humanos saben cómo suena un “gato”, cómo se ve, cómo se mueve su cuerpo, cómo se siente cuando lo tocamos, cómo se espera comportarse en un entorno determinado, cómo interactúa con otros seres vivos y no vivos.

Menos idealmente, piense en un caso en el que la parte de reconocimiento visual de la red nunca haya sido entrenada en un “guepardo”, pero las partes de la PNL han “aprendido” de las bases de texto en las que fueron entrenados que se supone que un guepardo parece un tigre pero con manchas en su cuerpo en lugar de rayas, y esto permite que la red reconozca visualmente al guepardo en las imágenes. Aprendizaje sin disparos, sin construir una máquina altamente diseñada específicamente para el aprendizaje sin disparos.

Desafortunadamente, en su forma actual, el papel está medio cocido y los resultados no son claros en absoluto. Por ejemplo, el resultado más emocionante en el documento es la Tabla 3, donde muestran que su red entrenada solo para la tarea de “análisis de token” cuando se prueba para “análisis de token” arroja una precisión del 97.1%, mientras que la misma red entrenada conjuntamente en el análisis de tokens y la clasificación de imágenes producen un 97.5% para el análisis de tokens. Aún así, se obtienen mejores resultados (97.9%) para el “análisis de tokens” cuando se entrena en las 8 tareas (principalmente traducción de idiomas). Los autores afirman que algún tipo de transferencia de superdominio es responsable de estas ganancias en la precisión de la tarea de “análisis de tokens”. Sin embargo, ni siquiera mencionan, y mucho menos experimentan a fondo, ¡la justificación más probable de que múltiples tareas simplemente regularizan mejor la capacitación y evitan el sobreajuste [por ejemplo, dando a cada tarea una capacidad de aprendizaje menor en la mezcla de expertos]!

Con todo, no compro el caso de utilidad práctica, que las personas deberían usar una sola arquitectura de red genérica sin importar la modalidad que estén usando. El cerebro humano, tan elástico como es, parece tener estructuras anatómicas físicamente distintas, que son responsables de diferentes tareas; incluso si, en circunstancias peculiares, las estructuras cerebrales irrelevantes aprenden tareas que en casos normales no serían suyas para aprender. Por otro lado, podría (y realmente quiero) creer que este tipo de arquitectura es la columna vertebral de un sistema AGI, pero el borrador actual (versión inicial de arXiv) no llega tan lejos. Sin embargo, tengo grandes expectativas del equipo y me encanta cómo combinaron muchas de sus últimas ideas detalladas en otros documentos recientes de arXiv en una sola arquitectura casi coherente.

La versión final de este documento después de la revisión por pares ciertamente será mucho mejor, incluso si esta presentación de arXiv solo está allí para plantar banderas.

Aprendizaje automáticoAprendizaje profundoinformáticaInteligencia Artificial