¿El aprendizaje por refuerzo es el primer paso para la IA general?

Realmente no me gusta la forma en que esta pregunta está redactada porque implica que no se dieron pasos hacia la IA general antes del aprendizaje de refuerzo, lo que diría que no es el caso. Pero creo que entiendo de dónde viene; Los avances recientes en el aprendizaje de refuerzo profundo han arrojado resultados muy impresionantes (por ejemplo, sobrehumanos) en una variedad de tareas, por lo que es natural preguntarse si esta tendencia es indicativa de algunos descubrimientos más fundamentales.

Básicamente creo que el aprendizaje de refuerzo, y particularmente el formalismo de los procesos de decisión de Markov parcialmente observables, es un marco útil para pensar sobre los desafíos que los agentes inteligentes tienen que dominar: la interpretación de entradas sensoriales potencialmente complejas y de alta dimensión que fueron generadas por algún conjunto de procesos que no se pueden observar directamente, y tomar decisiones “buenas” en respuesta. También apuesto a que la mayoría de los investigadores de inteligencia (tanto en informática como psicología) estarían de acuerdo en que interactuar con el entorno es una parte crítica del proceso de aprendizaje. El aprendizaje supervisado, aunque potente y útil, tiene un alcance limitado debido a la falta de interactividad y la necesidad de etiquetar los datos de capacitación. El aprendizaje por refuerzo supera muchos de estos problemas.

Dicho esto, creo que todavía nos faltan al menos una, y probablemente muchas, ideas fundamentales sobre la inteligencia y el aprendizaje de refuerzo tiene algunas limitaciones:

  • RL requiere que tengas una función de recompensa. Esto está bien si está tratando de diseñar un sistema para realizar alguna tarea, pero no está claro que la IA general tenga una función de recompensa (supongo que depende de cómo defina la “IA general”), ya que la vida en general no tiene una función de recompensa. Quizás los métodos evolutivos podrían usarse para construir funciones de recompensa “buenas”, pero no he pensado mucho en ello.
  • RL generalmente se realiza de manera episódica, mientras que muchas experiencias en la vida no son episódicas. Algunas cosas solo suceden una vez, y todavía tienes que manejarlo bien. En la simulación, puedes aprender a no despegarte de un acantilado muchas veces y observar una recompensa negativa, pero en la vida real es mejor que no salgas de un precipicio sin intentarlo.
  • Los métodos RL generalmente no incorporan conocimiento previo. Tome los juegos de Atari, un punto de referencia estándar de RL, como ejemplo. Un jugador humano sabe aproximadamente a qué corresponde la vida real con los patrones de píxeles, y sabe cómo se mueven típicamente los objetos en entornos físicos, etc. Un DQN entra sin saber nada de esto y tiene que aprender a reconocer patrones de píxeles desde cero, lo que hace que proceso de aprendizaje mucho menos eficiente.

Sobre plausibilidad biológica

No soy de los que afirman que un sistema solo es inteligente si funciona internamente “como un cerebro humano”. [Inserte aquí el argumento clásico sobre cómo los aviones vuelan de una manera diferente a la de las aves.] Pero sí creo que estudiar cerebros humanos e inteligencia biológica en general todavía tiene una gran cantidad de fruto metafórico para dar a la comunidad de IA. Para continuar con la analogía del vuelo, no tiene que aplicar la aerodinámica de la misma manera, pero aún debe comprender la aerodinámica . Creo que hay algún principio (o conjunto de principios) de inteligencia general que encarna el cerebro y que nuestros eventuales agentes generales de IA tendrán que encarnar, incluso si se implementan de manera diferente en el tejido y el silicio.

En particular, el (los) proceso (s) de aprendizaje en el cerebro parece ser bastante diferente de la forma en que aprenden los métodos de aprendizaje automático. Aprender en IA consiste básicamente en encontrar valores para los parámetros del modelo que minimizan alguna función de costo. Pero, ¿cuál es la función de costo en el cerebro? Y mucho aprendizaje en el cerebro ocurre localmente, a diferencia de los modelos típicos de aprendizaje automático. Estoy muy interesado en ver si estas diferencias se resuelven en el futuro y cómo, porque en los últimos años se ha vuelto cada vez más claro que las redes neuronales artificiales tienen un poder notable para algunas tareas, pero aún palidecen en comparación con el cerebro humano. como una máquina de aprendizaje general.

Dado que las cadenas de Markov están en el corazón del aprendizaje por refuerzo, esta parece ser una buena oportunidad para llamar la atención sobre esta agradable visualización:

Cadenas de Markov explicadas visualmente

Además de hacer esta conexión, me gustaría abordar dos aspectos de la pregunta:

  • aprendizaje
  • general ai

El aprendizaje de refuerzo es ciertamente una forma de explorar e identificar potencialmente el significado potencial, incluso cuando hay más dimensiones en el universo de significado que se estudian que las ocurrencias válidas reales de las combinaciones de tokens que forman esos significados. Esto, en otras palabras, significa que existe un posible movimiento hacia adelante incluso bajo la maldición de la multidimensionalidad .

Sin embargo, sigue siendo cuestionable si esto puede llamarse significado en el sentido humano y los ejemplos que lo contrarrestarían serían aquellos casos en los que el factor de un minuto se invierte o desvía, o debería haber revertido o desviado, el significado local.

El paso deseado hacia el ai general es muy grande y recomendaría la lectura de publicaciones desde el lado no lingüístico del negocio de ai; generalmente encontrará poca transparencia en el sentido de “máquina que demuestra empatía “, sino más bien una exhortación de cómo se deben hacer las cosas, programáticamente.

Sugiero que cualquier enfoque que apunte a inteligencia general o inteligencia artificial general de la máquina explore el “bandido de un solo brazo que puede haberse pasado por alto”, el que contiene información sobre el significado que los humanos atribuyen a las fichas. Ese bandido armado sería la ontología o el modelo / topología del tema .

Ese bandido insistiría en que “san fransisco” y “santa fe” podrían estar en este país:

Pero también estaría abierto a otras soluciones. Pero, de nuevo, no hay ninguna solución .

En general, agregaría bastante certeza a las direcciones de ruta de las cadenas de Markov.