En el aprendizaje automático y la robótica, hay un método muy similar llamado aprendizaje por refuerzo, que se usa comúnmente para enseñar o mejorar los comportamientos del robot.
El principio básico es que el robot tiene una función de recompensa asociada con la realización de una acción o el logro de algún objetivo, que es una medida de cuán “bueno” fue el rendimiento. También hay una relación matemática entre la recompensa por el desempeño y los parámetros utilizados para definir el comportamiento. Entonces, si el robot proporciona un bajo rendimiento (baja recompensa), entonces obtiene muchos ajustes de comportamiento. Si el robot proporciona un excelente rendimiento (alta recompensa), puede obtener una pequeña cantidad de ajustes de comportamiento.
A menudo, el robot repite el comportamiento muchas veces, haciendo de esta una de las formas de aprendizaje más lentas, especialmente si está trabajando con robots reales. Eventualmente, el robot con suerte encontrará una solución óptima (con la máxima recompensa).
- ¿Qué bibliotecas de OCR tienen en cuenta la ortografía de una palabra para predecir los caracteres y cómo lo hacen?
- ¿Cómo puede la IA / aprendizaje automático ayudar a las sociedades pobres?
- ¿Qué tan precisos son los convertidores de voz a texto que están en uso, a nivel mundial (diferentes pronunciaciones)?
- ¿Qué pasa si Quora ganó sensibilidad?
- ¿Por qué los personajes robóticos tienden a abrir mucho los ojos para crear efectos artificiales o robóticos?
Puedo proporcionar algo de experiencia personal usando el condicionamiento operante más tradicional con robots humanoides de mi tiempo en el Laboratorio de máquinas socialmente inteligentes en Georgia Tech. La interacción sería algo como esto:
- Preséntate a Simon (principalmente pelusa, para llevarlo al modo correcto / de aprendizaje)
- Tome el brazo de Simon en sus manos y demuestre cierta habilidad moviéndolo a través de las acciones.
- Repita la demostración (haga algunas demostraciones en total)
- Pídele a Simon que realice la habilidad por ti
- Simon intentaría cambiar algún aspecto de la habilidad y luego preguntaría si estaba bien
- Le dices a Simon “Sí” o “No” (recompensa / castigo)
- Repita 2-6 con una nueva habilidad (s)