¿Qué es la teoría del refuerzo?

Supongo que realmente estás preguntando sobre el aprendizaje por refuerzo, así que voy a ir con eso.

Todo proviene de Machine Learning, “la rama de la Inteligencia Artificial que se ocupa de algoritmos mediante los cuales las máquinas pueden demostrar un comportamiento inteligente dadas algunas observaciones al principio”.

El aprendizaje por refuerzo se refiere a uno de esos métodos en el aprendizaje automático en el que la máquina aprende tratando de hacer cosas varias veces, como un niño en crecimiento. Actúa y, en función de la respuesta del entorno o del entorno (datos de los sensores), cambia su comportamiento (parámetros de aprendizaje).

Aprendizaje supervisado vs Aprendizaje de refuerzo: ambos pueden parecer muy similares al principio, pero hay algunas diferencias:

  • El aprendizaje supervisado es el aprendizaje fuera de línea (cuando la máquina está entrenada, entonces no está actuando al mismo tiempo, es como aprender un camino si se le da un mapa de antemano), mientras que el aprendizaje de refuerzo es el aprendizaje en línea (cuando la máquina está siendo entrenada entonces, en ese momento, está utilizando esos parámetros entrenados, como si aprendiera un camino hacia su destino probando casi todos los caminos que puede observar hasta que encuentre el correcto.
  • Por lo general, los parámetros se cambian con cada punto de datos en el aprendizaje de refuerzo, mientras que el aprendizaje supervisado generalmente se ocupa de los puntos de datos en lotes (grupos).

Espero que esto ayude,

Paz 🙂

PD: las definiciones son solo descripciones aproximadas.