¿Alguien ha creado un motor de inferencia sensoriomotor generalizado antes?

En general, creo que la respuesta es no . Sin embargo, como se señaló en su respuesta a otros comentarios, se ha pensado en cómo un agente podría aprender generando sus propias señales de recompensa internas. Debes echar un vistazo al Curious Dr. MISFA de Varun Kompella si aún no has visto un ejemplo de juguete. También puede ver las ideas de Joel Lehman sobre Búsqueda de novedades (dice que este aprendizaje no tiene recompensas; creo que la descripción es inexacta e inútil, aunque su trabajo sigue siendo muy interesante).

La idea de “un agente que explore un entorno de manera general y aprenda cómo se puede manipular el entorno” sería un gran Ph.D. tesis, porque todos los métodos que necesitarías para hacerlo ya existen. Sin embargo, hay varios obstáculos que superar:

  1. Necesitas un robot que sea lo suficientemente poderoso como para ser interesante, pero lo suficientemente “débil” como para no romperse. Tal vez un PR2? ¿O un Roomba mejorado con un brazo robótico barato y una cámara en la parte superior? El problema es que tienes que encontrar una plataforma, luego comprarla y configurarla. Necesita sensores ricos y algunos motores, pero si el robot es demasiado capaz, nunca obtendrá la versión 1 funcionando. El obstáculo principal aquí es el momento de configurar el robot y el gasto de comprar piezas. Necesitas un presupuesto sustancial.
  2. Necesita un entorno que sea lo suficientemente interesante como para tener algunas regularidades para aprender, pero el entorno no puede romper su robot. Esto significa que necesita un poco de espacio de laboratorio e incluso más presupuesto.
  3. Tendría que encontrar una manera de describir lo que su robot puede hacer de manera significativa. En la mayoría de los trabajos de investigación, hay un punto de comparación o un estándar objetivo que se cumple. Pero demostrar un robot que “explora libremente” es bastante difícil de cuantificar. No necesariamente necesita una métrica que mida la calidad de la exploración, pero sí necesita descubrir cómo demostrar el éxito a un observador escéptico.

En mi opinión, los mayores obstáculos son los tres puntos anteriores; El aspecto técnico es bastante factible. En realidad, construir un robot y probarlo lleva tiempo y dinero, y al final tienes que demostrar el éxito. Es poco probable que los financiadores le den mucho dinero para “jugar” con robots sin lograr un resultado claro. Por lo tanto, necesitaría (a) autofinanciarse o (b) hacer un trabajo de ventas realmente bueno para obtener el dinero de las subvenciones de investigación o del capital de los inversores.

La cuestión es que las recompensas son una pieza fundamental del rompecabezas de aprendizaje. En IA, y en la vida / evolución. Sin recompensas, nos marchitamos y morimos.

Sin recompensas, es tan malo como las recompensas constantes.

Piensa en un adicto a la heroína. Básicamente, ahora ha cortocircuitado su centro de recompensa, y ahora lo único que produce un sentimiento de recompensa es la heroína. De ahí que se pierda la motivación para hacer cualquier cosa. Y sin una intervención adecuada, simplemente se ‘recompensarán’ hasta la muerte.

Lo mismo sucede cuando no hay recompensa por nada. Tu motivación también se marchita y muere. Esto es lo que sucede detrás de la depresión y el posterior pensamiento nihilista. Jodidos centros de recompensa que no liberan suficiente dopamina en respuesta a factores externos.

Perdón por desviarme un poco del tema allí. Pero tal vez no estoy entendiendo completamente lo que quieres decir ‘sin recompensa’. No veo cómo una IA sin recompensa puede aprender algo sustancial sobre su entorno

Porque dijiste ‘aprendizaje de refuerzo no supervisado’, y la definición para eso es …… ” El objetivo de un agente de aprendizaje de refuerzo es recolectar la mayor recompensa posible

Si pudiera comentar, creo que me gustaría leer una explicación más detallada sobre cómo piensa / planea hacer que esto funcione.

Puede que le interesen las recompensas generadas internamente y la exploración impulsada por la curiosidad. 🙂

Por ejemplo, un agente puede recibir pseudo recompensas que dependen de la ganancia de información que logra mientras interactúa con el entorno.