¿Cuáles son las principales teorías en el desarrollo de un AGI? La tecnología cambia la vida futura

Bueno, no sé cuáles son las teorías oficiales, pero aquí está la mía.

El núcleo de la inteligencia general no es más que lo que está haciendo el aprendizaje de refuerzo de Q-learning. En palabras simples, se trata del condicionamiento de Pavlov.

Su cuerpo tiene algunos impulsos primitivos de recompensa y castigo. Saciedad y hambre, sed, dolor, placer sexual, etc. Parecen ser unidades muy simples, no suficientes para la inteligencia general. Pero en realidad, es muy probable.

Nuestro cerebro aprende a calcular el valor del estado actual (= la situación), ese valor se basa en la recompensa futura. Para las recompensas a corto plazo, es simple entender cómo funciona y esto es lo que hace Q-learning al jugar juegos de Atari. Cuando juegas Breakout OpenAI Gym: el entorno Breakout-v0, obtienes una recompensa cuando rompes un bloque. Pero tus acciones mueven la raqueta. Hay un retraso entre la acción y la recompensa.

Lo que los algoritmos aprenden es no planificar la estrategia correcta. Aprende que cuando la pelota toca la raqueta, esta es una buena recompensa futura. El estado de la pelota tocando la raqueta se convierte en una recompensa. Luego, la IA aprenderá a maximizar la pelota tocando la raqueta, porque aprenderá que cuando la raqueta está muy lejos de la pelota, es malo.

Las recompensas primitivas asociadas con un estado son fijas, las recompensas aprendidas asociadas con un estado evolucionarán a medida que la IA o el cerebro aprendan. Pero es lo mismo al final, solo que uno puede variar y no el otro.

Cuando su refrigerador está medio vacío, sabe que tiene que ir al supermercado a comprar comida. No necesita esperar a que su refrigerador esté vacío, no necesita sentir hambre. Durante su vida, su cerebro aprendió que cuando tiene hambre es malo (impulso primitivo), cuando no come, es malo (impulso aprendido) ya que tendrá hambre en el futuro y tener hambre es malo. Aprendiste que cuando tu refrigerador está vacío, es malo, ya que no podrás comer y no poder comer es malo. Aprendiste que cuando tu refrigerador está medio vacío, es malo, porque pronto estará vacío y un refrigerador vacío es malo. Aprendiste que cuando vas al supermercado, es bueno, porque termina el estado de tener un refrigerador medio vacío que es malo.

No planifica pensando todo en las unidades primitivas. Piensas “Mi refrigerador está medio vacío, esto es malo, tengo que ir al supermercado”. No piensas en absoluto en “Tengo que ir al supermercado, de lo contrario terminaré hambriento”, vas al supermercado para evitar tener un refrigerador medio vacío.

Este es el núcleo de la inteligencia general. No hay nada más que los impulsos primitivos, pero terminas construyendo abstracciones complejas y asocias lo bueno / malo a esas situaciones abstractas y luego intentas mejorar las probabilidades de que ocurran situaciones buenas y reducir las probabilidades de que ocurran situaciones malas.

Esto es lo que está haciendo Q-learning. El único desafío es que necesitas construir abstracciones mucho más complejas, para reconocer situaciones. Debe poder reconocer situaciones abstractas para poder asociar un valor a esa situación abstracta. Para poder reconocer más estados, necesita más neuronas.

Por lo tanto, hay mucho trabajo por hacer para obtener un AGI, pero los principios básicos ya están aquí hoy. Lo que necesitamos hoy son redes neuronales más grandes (más potencia de procesamiento y más memoria), una forma más eficiente de calcular funciones de valor, formas más eficientes de aprender estados abstractos, formas más eficientes de descomponer conceptos complejos en varios conceptos más simples (este es el objetivo de memoria de trabajo, corta una situación abstracta compleja en varias situaciones abstractas más simples y crea una memoria capaz de cambiar de una a otra).

Entonces, tienes muchos desafíos sobre cómo hacer que el aprendizaje sea estable, porque las redes neuronales tienden a olvidar las cosas si no se usan, si las neuronas son inútiles, serán reutilizadas para algo más útil. El desafío es encontrar cómo hacer que las neuronas cambien su peso a partir de un puñado de encuentros con una situación muy importante, al mismo tiempo que evitan que se olviden situaciones raras pero importantes porque las neuronas que reconocen esas situaciones casi nunca se usan. Esto es algo muy desafiante que realmente no se está investigando hoy. Los mundos “no estacionarios” son difíciles de manejar, esto es cuando la lógica del mundo cambia con el tiempo. Esto es difícil porque nunca sabemos si deberías olvidar las cosas que nunca más suceden, o si debes seguir recordándolo solo en caso de que vuelva a suceder si el mundo vuelve a su comportamiento anterior.

Y el último problema es cómo cambiar el comportamiento entre la búsqueda de rentas y la exploración. Este es un problema difícil incluso para humanos o corporaciones. ¿Cuánto debería invertir en investigación riesgosa en lugar de obtener más ganancias en tecnologías de trabajo? ¿Cómo valorar las recompensas inciertas? Esto es algo que se está investigando activamente. En los humanos, una forma de valorar la exploración es que nos aburrimos y aburrirnos es malo. Necesitamos experimentar cosas nuevas todo el tiempo. Tu novio / novia es maravilloso … pero después de unos años de matrimonio es aburrido. El aburrimiento es uno de los principales motores de la exploración, pero también la codicia ilimitada y las adicciones a las drogas. Obtenemos menos recompensa cuando las cosas ya no son sorprendentes y esto nos hará valorar más la exploración incierta.