En general, creo que la respuesta es no . Sin embargo, como se señaló en su respuesta a otros comentarios, se ha pensado en cómo un agente podría aprender generando sus propias señales de recompensa internas. Debes echar un vistazo al Curious Dr. MISFA de Varun Kompella si aún no has visto un ejemplo de juguete. También puede ver las ideas de Joel Lehman sobre Búsqueda de novedades (dice que este aprendizaje no tiene recompensas; creo que la descripción es inexacta e inútil, aunque su trabajo sigue siendo muy interesante).
La idea de “un agente que explore un entorno de manera general y aprenda cómo se puede manipular el entorno” sería un gran Ph.D. tesis, porque todos los métodos que necesitarías para hacerlo ya existen. Sin embargo, hay varios obstáculos que superar:
- Necesitas un robot que sea lo suficientemente poderoso como para ser interesante, pero lo suficientemente “débil” como para no romperse. Tal vez un PR2? ¿O un Roomba mejorado con un brazo robótico barato y una cámara en la parte superior? El problema es que tienes que encontrar una plataforma, luego comprarla y configurarla. Necesita sensores ricos y algunos motores, pero si el robot es demasiado capaz, nunca obtendrá la versión 1 funcionando. El obstáculo principal aquí es el momento de configurar el robot y el gasto de comprar piezas. Necesitas un presupuesto sustancial.
- Necesita un entorno que sea lo suficientemente interesante como para tener algunas regularidades para aprender, pero el entorno no puede romper su robot. Esto significa que necesita un poco de espacio de laboratorio e incluso más presupuesto.
- Tendría que encontrar una manera de describir lo que su robot puede hacer de manera significativa. En la mayoría de los trabajos de investigación, hay un punto de comparación o un estándar objetivo que se cumple. Pero demostrar un robot que “explora libremente” es bastante difícil de cuantificar. No necesariamente necesita una métrica que mida la calidad de la exploración, pero sí necesita descubrir cómo demostrar el éxito a un observador escéptico.
En mi opinión, los mayores obstáculos son los tres puntos anteriores; El aspecto técnico es bastante factible. En realidad, construir un robot y probarlo lleva tiempo y dinero, y al final tienes que demostrar el éxito. Es poco probable que los financiadores le den mucho dinero para “jugar” con robots sin lograr un resultado claro. Por lo tanto, necesitaría (a) autofinanciarse o (b) hacer un trabajo de ventas realmente bueno para obtener el dinero de las subvenciones de investigación o del capital de los inversores.
- Dada la variedad y el éxito de sus productos, ¿cómo podría la evolución por selección natural sugerir un modelo de inteligencia, y cómo podría aplicarse ese modelo al desarrollo de la IA (o tal vez ya se esté aplicando)?
- ¿Cuáles son los mayores defectos en la IA de Age of Empires II?
- ¿Hay alguna manera de usar la tecnología de realidad virtual para visualizar cómo aprende una red neuronal profunda?
- ¿Por qué Estados Unidos no reemplaza a los inmigrantes con inteligencia artificial?
- Cómo implementar un algoritmo de IA en mi aplicación web corporativa