¿Se puede usar el condicionamiento operante para programar el comportamiento de un robot?

En el aprendizaje automático y la robótica, hay un método muy similar llamado aprendizaje por refuerzo, que se usa comúnmente para enseñar o mejorar los comportamientos del robot.

El principio básico es que el robot tiene una función de recompensa asociada con la realización de una acción o el logro de algún objetivo, que es una medida de cuán “bueno” fue el rendimiento. También hay una relación matemática entre la recompensa por el desempeño y los parámetros utilizados para definir el comportamiento. Entonces, si el robot proporciona un bajo rendimiento (baja recompensa), entonces obtiene muchos ajustes de comportamiento. Si el robot proporciona un excelente rendimiento (alta recompensa), puede obtener una pequeña cantidad de ajustes de comportamiento.

A menudo, el robot repite el comportamiento muchas veces, haciendo de esta una de las formas de aprendizaje más lentas, especialmente si está trabajando con robots reales. Eventualmente, el robot con suerte encontrará una solución óptima (con la máxima recompensa).


Puedo proporcionar algo de experiencia personal usando el condicionamiento operante más tradicional con robots humanoides de mi tiempo en el Laboratorio de máquinas socialmente inteligentes en Georgia Tech. La interacción sería algo como esto:

  1. Preséntate a Simon (principalmente pelusa, para llevarlo al modo correcto / de aprendizaje)
  2. Tome el brazo de Simon en sus manos y demuestre cierta habilidad moviéndolo a través de las acciones.
  3. Repita la demostración (haga algunas demostraciones en total)
  4. Pídele a Simon que realice la habilidad por ti
  5. Simon intentaría cambiar algún aspecto de la habilidad y luego preguntaría si estaba bien
  6. Le dices a Simon “Sí” o “No” (recompensa / castigo)
  7. Repita 2-6 con una nueva habilidad (s)