El aprendizaje automático se puede clasificar ampliamente en 3 categorías:
- Aprendizaje supervisado
- Aprendizaje sin supervisión
- Aprendizaje reforzado
¿Qué es el aprendizaje supervisado?
El Aprendizaje supervisado es un tipo de aprendizaje en el que se conoce la variable Objetivo, y esta información se usa explícitamente durante el entrenamiento (Supervisado), es decir, el modelo se entrena bajo la supervisión de un Maestro (Objetivo). Por ejemplo , si queremos construir un modelo de clasificación para dígitos escritos a mano, la entrada será el conjunto de imágenes (datos de entrenamiento) y la variable objetivo serán las etiquetas asignadas a estas imágenes, es decir, sus clases de 0-9.
¿Qué es el aprendizaje por refuerzo?
El aprendizaje por refuerzo es un tipo de algoritmo de aprendizaje en el que la máquina toma decisiones sobre qué acciones tomar, dada una determinada situación / entorno, para maximizar una recompensa.
Diferencia entre el aprendizaje supervisado y de refuerzo:
La diferencia entre el aprendizaje supervisado y de refuerzo es la señal de recompensa que simplemente indica si la acción (entrada) tomada por el agente es buena o mala. No nos dice nada sobre cuál es la mejor acción. En este tipo de aprendizaje, no tenemos los datos de entrenamiento ni las variables objetivo.
En el aprendizaje por refuerzo, al alumno no se le dice qué acciones tomar, como en la mayoría de las formas de aprendizaje automático, sino que debe descubrir qué acciones producen la mayor recompensa probándolas. En los casos más interesantes y desafiantes, las acciones pueden afectar no solo la recompensa inmediata sino también la próxima situación y, a través de eso, todas las recompensas posteriores. Estas dos características: búsqueda de prueba y error y recompensa retrasada son las características distintivas del aprendizaje por refuerzo.
El modelo de aprendizaje de refuerzo consiste en:
- Un conjunto de estados ambientales y de agentes S.
- Un conjunto de acciones A del agente.
- Políticas de transición de estados a acciones.
- Reglas que determinan la recompensa escalar inmediata de una transición.
- Reglas que describen lo que observa el agente.
Una tarea se define mediante un conjunto de estados, s∈S, un conjunto de acciones, a∈A, una función de transición de estado-acción,
T: S × A → S, y una función de recompensa, R: S × A → R. En cada paso de tiempo, el alumno (también llamado agente) selecciona una acción y, como resultado, recibe una recompensa y su nuevo estado. El objetivo del aprendizaje por refuerzo es aprender una política, un mapeo de estados a acciones, Π: S → A que maximiza la suma de su recompensa a lo largo del tiempo.
En el aprendizaje automático, el entorno se formula como un proceso de decisión de Markov (MDP) , ya que muchos algoritmos de aprendizaje de refuerzo para este contexto utilizan técnicas de programación dinámica.
Elementos del aprendizaje por refuerzo:
Excepto por el agente y el entorno, tenemos cuatro subelementos del sistema de aprendizaje por refuerzo:
- Política: define la forma de comportarse del agente de aprendizaje en un momento dado.
- Función de recompensa: define el objetivo en el problema de aprendizaje por refuerzo.
- Función de valor: especifica lo que es bueno a largo plazo.
- Modelo del entorno (opcional): los modelos se utilizan para la planificación, por lo que nos referimos a cualquier forma de decidir un curso de acción al considerar posibles situaciones futuras antes de que realmente se experimenten.
Las recompensas son, en cierto sentido, primarias, mientras que los valores, como predicciones de recompensas, son secundarios. Sin recompensas, no podría haber valores, y el único propósito de estimar valores es lograr más recompensa.
¿Como funciona?
El aprendizaje de refuerzo consiste en tratar de comprender la forma óptima de tomar decisiones / acciones para maximizar la recompensa R. Esta recompensa es una señal de respuesta que muestra qué tan bien le está yendo al agente en un paso de tiempo dado. La acción A que realiza un agente en cada paso del tiempo es una función tanto de la recompensa como del estado S , que es una descripción del entorno en el que se encuentra el agente. La asignación de los estados del entorno a las acciones es la política P. La política básicamente define la forma de comportamiento del agente en un momento determinado, dada una determinada situación. Ahora, también tenemos una función de valor V que es una medida de cuán buena es cada posición. Esto es diferente de la recompensa en que la señal de recompensa indica lo que es bueno en el sentido inmediato, mientras que la función de valor es más indicativa de lo bueno que es estar en este estado / posición a largo plazo. Finalmente, tenemos un modelo M que es la representación del agente del medio ambiente. Este es el modelo del agente de cómo cree que se comportará el entorno.
Todo el entorno de refuerzo de aprendizaje se puede describir con un MDP.
Lea el artículo completo Introducción al aprendizaje por refuerzo para conocer más sobre MDP y algunos ejemplos de la vida real del aprendizaje por refuerzo.
Además, comuníquese con nosotros para obtener más información sobre inteligencia artificial (IA), aprendizaje automático (ML), historias relacionadas con análisis en: blogs, estudios de casos, documentos de investigación