¿El aprendizaje por refuerzo es el primer paso para la IA general? La tecnología cambia la vida futura

Realmente no me gusta la forma en que esta pregunta está redactada porque implica que no se dieron pasos hacia la IA general antes del aprendizaje de refuerzo, lo que diría que no es el caso. Pero creo que entiendo de dónde viene; Los avances recientes en el aprendizaje de refuerzo profundo han arrojado resultados muy impresionantes (por ejemplo, sobrehumanos) en una variedad de tareas, por lo que es natural preguntarse si esta tendencia es indicativa de algunos descubrimientos más fundamentales.

Básicamente creo que el aprendizaje de refuerzo, y particularmente el formalismo de los procesos de decisión de Markov parcialmente observables, es un marco útil para pensar sobre los desafíos que los agentes inteligentes tienen que dominar: la interpretación de entradas sensoriales potencialmente complejas y de alta dimensión que fueron generadas por algún conjunto de procesos que no se pueden observar directamente, y tomar decisiones “buenas” en respuesta. También apuesto a que la mayoría de los investigadores de inteligencia (tanto en informática como psicología) estarían de acuerdo en que interactuar con el entorno es una parte crítica del proceso de aprendizaje. El aprendizaje supervisado, aunque potente y útil, tiene un alcance limitado debido a la falta de interactividad y la necesidad de etiquetar los datos de capacitación. El aprendizaje por refuerzo supera muchos de estos problemas.

Dicho esto, creo que todavía nos faltan al menos una, y probablemente muchas, ideas fundamentales sobre la inteligencia y el aprendizaje de refuerzo tiene algunas limitaciones:

RL requiere que tengas una función de recompensa. Esto está bien si está tratando de diseñar un sistema para realizar alguna tarea, pero no está claro que la IA general tenga una función de recompensa (supongo que depende de cómo defina la “IA general”), ya que la vida en general no tiene una función de recompensa. Quizás los métodos evolutivos podrían usarse para construir funciones de recompensa “buenas”, pero no he pensado mucho en ello.
RL generalmente se realiza de manera episódica, mientras que muchas experiencias en la vida no son episódicas. Algunas cosas solo suceden una vez, y todavía tienes que manejarlo bien. En la simulación, puedes aprender a no despegarte de un acantilado muchas veces y observar una recompensa negativa, pero en la vida real es mejor que no salgas de un precipicio sin intentarlo.
Los métodos RL generalmente no incorporan conocimiento previo. Tome los juegos de Atari, un punto de referencia estándar de RL, como ejemplo. Un jugador humano sabe aproximadamente a qué corresponde la vida real con los patrones de píxeles, y sabe cómo se mueven típicamente los objetos en entornos físicos, etc. Un DQN entra sin saber nada de esto y tiene que aprender a reconocer patrones de píxeles desde cero, lo que hace que proceso de aprendizaje mucho menos eficiente.

Sobre plausibilidad biológica

No soy de los que afirman que un sistema solo es inteligente si funciona internamente “como un cerebro humano”. [Inserte aquí el argumento clásico sobre cómo los aviones vuelan de una manera diferente a la de las aves.] Pero sí creo que estudiar cerebros humanos e inteligencia biológica en general todavía tiene una gran cantidad de fruto metafórico para dar a la comunidad de IA. Para continuar con la analogía del vuelo, no tiene que aplicar la aerodinámica de la misma manera, pero aún debe comprender la aerodinámica . Creo que hay algún principio (o conjunto de principios) de inteligencia general que encarna el cerebro y que nuestros eventuales agentes generales de IA tendrán que encarnar, incluso si se implementan de manera diferente en el tejido y el silicio.

En particular, el (los) proceso (s) de aprendizaje en el cerebro parece ser bastante diferente de la forma en que aprenden los métodos de aprendizaje automático. Aprender en IA consiste básicamente en encontrar valores para los parámetros del modelo que minimizan alguna función de costo. Pero, ¿cuál es la función de costo en el cerebro? Y mucho aprendizaje en el cerebro ocurre localmente, a diferencia de los modelos típicos de aprendizaje automático. Estoy muy interesado en ver si estas diferencias se resuelven en el futuro y cómo, porque en los últimos años se ha vuelto cada vez más claro que las redes neuronales artificiales tienen un poder notable para algunas tareas, pero aún palidecen en comparación con el cerebro humano. como una máquina de aprendizaje general.

Aprendizaje por refuerzoInteligencia Artificial