¿Cuál es la diferencia entre aprendizaje supervisado y aprendizaje de refuerzo?

Hay mucha literatura sobre este tema. Vi una buena explicación de esto [aquí], pensé que podría ayudar a entender. La esencia es:

Aprendizaje supervisado

Entrada: disponible Salida: disponible
Capacitar / validar en datos de capacitación (muestre el resultado requerido para el modelo, de ahí el nombre Supervisado)
Pruebe en una porción de datos que el modelo nunca ha visto (y esta vez no muestra los resultados esperados para el modelo)
Si el modelo pudo identificar la salida (casi coincidiendo con la salida real, se esconde del modelo), entonces está listo para implementar su modelo
EJEMPLO : ” Sé cómo clasificar estos datos, solo necesito que tú (el modelo) hagas esta tarea”.
USO : para clasificar etiquetas o producir números reales

Figura-1 : Podemos ver todas las clases en el conjunto de datos. Todo lo que necesitamos es un modelo para clasificar los puntos de datos nuevos que le demos, en función de su aprendizaje a partir de los datos de capacitación / entrada. (no es el mejor ejemplo, tendrás que explorar un poco para encontrar un buen ejemplo).

Aprendizaje reforzado

Entrada: Disponible – Estado inicial (el punto desde donde comenzará el modelo) Salida: sin salida única. Muchas formas / soluciones posibles
Capacitar / validar en datos de entrada ( INPUT se alimenta al modelo y, en función de esa ENTRADA, el modelo devuelve un ESTADO. Ahora el usuario recompensará / castigará al modelo en función de su salida)

este proceso continúa y el modelo sigue aprendiendo

Siempre está en producción, necesita aprender datos reales para poder presentar acciones de los estados
EJEMPLO : ” No sé cómo ACTUAR en este entorno, ¿puede encontrar una buena política / comportamiento y mientras tanto le daré retroalimentación”.
USO – Para encontrar una política óptima que maximice la recompensa para el modelo / agente

Figura-2 : (MarI / O) Mario aprendiendo a encontrar la mejor política para maximizar la recompensa. Este ejemplo particular (usa NN y algoritmos genéticos). Sin embargo, es un buen ejemplo para entender. [Fuente]

Aprendizaje automáticoAprendizaje por refuerzoAprendizaje supervisadoinformáticaInteligencia Artificial

¿Alguna vez los humanos serán superados por la IA en la composición musical?

¿Cuál es la forma más rentable de producir Inteligencia general artificial (AGI o IA general)?

¿Qué es la superinteligencia?

¿Los robots reemplazarán a los humanos como músicos algún día?

¿De dónde saca la gente la idea de que la IA (si alguna vez existiera a ese nivel) nos va a matar?

¿Qué algoritmo relacionado con la IA conoces y cómo funciona (en términos simples)?

El aprendizaje de refuerzo consiste en la toma de decisiones secuenciales . Lo que eso significa es que, dada la entrada actual, usted toma una decisión, y la siguiente entrada depende de su decisión . En el aprendizaje supervisado, las decisiones que toma, ya sea en un lote o en línea, no afectan lo que ve en el futuro. Esta es la diferencia fundamental entre el aprendizaje supervisado y el aprendizaje de refuerzo.

Los ejemplos canónicos del aprendizaje por refuerzo son los juegos de mesa, como el ajedrez o el go, o la manipulación robótica en un entorno, mientras que problemas como el reconocimiento de objetos se enmarcan en el aprendizaje supervisado.

En el aprendizaje supervisado, dado que cada decisión es independiente, tiene una etiqueta asociada con cada decisión. En RL, debido a que se trata de secuencias, tiene etiquetas asociadas con secuencias en lugar de estados individuales. Por ejemplo, es difícil para los humanos etiquetar un estado arbitrario en medio de un juego de ajedrez. Solo después de completar un juego, que corresponde a una secuencia de acciones, puede asociar una etiqueta [ganar / perder], que se conoce como recompensa en RL. Del mismo modo, para un robot que realiza una tarea, es difícil juzgar si la tarea se realiza correctamente antes de completarse. En términos más generales, puede obtener una recompensa en los pasos intermedios, además del estado final, para dar pistas al agente. Debido a que el objetivo es encontrar la secuencia con la máxima recompensa total , no maximiza la recompensa en cada paso. Esa es la razón por la cual la recompensa en el paso actual solo sirve como una pista: es posible que desee dar un paso con una recompensa más baja ahora, si conduce a estados con recompensas más altas en el futuro.

Prasoon Goyal

El aprendizaje automático se puede clasificar ampliamente en 3 categorías:

Aprendizaje supervisado
Aprendizaje sin supervisión
Aprendizaje reforzado

¿Qué es el aprendizaje supervisado?

El Aprendizaje supervisado es un tipo de aprendizaje en el que se conoce la variable Objetivo, y esta información se usa explícitamente durante el entrenamiento (Supervisado), es decir, el modelo se entrena bajo la supervisión de un Maestro (Objetivo). Por ejemplo , si queremos construir un modelo de clasificación para dígitos escritos a mano, la entrada será el conjunto de imágenes (datos de entrenamiento) y la variable objetivo serán las etiquetas asignadas a estas imágenes, es decir, sus clases de 0-9.

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es un tipo de algoritmo de aprendizaje en el que la máquina toma decisiones sobre qué acciones tomar, dada una determinada situación / entorno, para maximizar una recompensa.

Diferencia entre el aprendizaje supervisado y de refuerzo:

La diferencia entre el aprendizaje supervisado y de refuerzo es la señal de recompensa que simplemente indica si la acción (entrada) tomada por el agente es buena o mala. No nos dice nada sobre cuál es la mejor acción. En este tipo de aprendizaje, no tenemos los datos de entrenamiento ni las variables objetivo.

En el aprendizaje por refuerzo, al alumno no se le dice qué acciones tomar, como en la mayoría de las formas de aprendizaje automático, sino que debe descubrir qué acciones producen la mayor recompensa probándolas. En los casos más interesantes y desafiantes, las acciones pueden afectar no solo la recompensa inmediata sino también la próxima situación y, a través de eso, todas las recompensas posteriores. Estas dos características: búsqueda de prueba y error y recompensa retrasada son las características distintivas del aprendizaje por refuerzo.

El modelo de aprendizaje de refuerzo consiste en:

Un conjunto de estados ambientales y de agentes S.
Un conjunto de acciones A del agente.
Políticas de transición de estados a acciones.
Reglas que determinan la recompensa escalar inmediata de una transición.
Reglas que describen lo que observa el agente.

Una tarea se define mediante un conjunto de estados, s∈S, un conjunto de acciones, a∈A, una función de transición de estado-acción,

T: S × A → S, y una función de recompensa, R: S × A → R. En cada paso de tiempo, el alumno (también llamado agente) selecciona una acción y, como resultado, recibe una recompensa y su nuevo estado. El objetivo del aprendizaje por refuerzo es aprender una política, un mapeo de estados a acciones, Π: S → A que maximiza la suma de su recompensa a lo largo del tiempo.

En el aprendizaje automático, el entorno se formula como un proceso de decisión de Markov (MDP) , ya que muchos algoritmos de aprendizaje de refuerzo para este contexto utilizan técnicas de programación dinámica.

Elementos del aprendizaje por refuerzo:

Excepto por el agente y el entorno, tenemos cuatro subelementos del sistema de aprendizaje por refuerzo:

Política: define la forma de comportarse del agente de aprendizaje en un momento dado.
Función de recompensa: define el objetivo en el problema de aprendizaje por refuerzo.
Función de valor: especifica lo que es bueno a largo plazo.
Modelo del entorno (opcional): los modelos se utilizan para la planificación, por lo que nos referimos a cualquier forma de decidir un curso de acción al considerar posibles situaciones futuras antes de que realmente se experimenten.

Las recompensas son, en cierto sentido, primarias, mientras que los valores, como predicciones de recompensas, son secundarios. Sin recompensas, no podría haber valores, y el único propósito de estimar valores es lograr más recompensa.

¿Como funciona?

El aprendizaje de refuerzo consiste en tratar de comprender la forma óptima de tomar decisiones / acciones para maximizar la recompensa R. Esta recompensa es una señal de respuesta que muestra qué tan bien le está yendo al agente en un paso de tiempo dado. La acción A que realiza un agente en cada paso del tiempo es una función tanto de la recompensa como del estado S , que es una descripción del entorno en el que se encuentra el agente. La asignación de los estados del entorno a las acciones es la política P. La política básicamente define la forma de comportamiento del agente en un momento determinado, dada una determinada situación. Ahora, también tenemos una función de valor V que es una medida de cuán buena es cada posición. Esto es diferente de la recompensa en que la señal de recompensa indica lo que es bueno en el sentido inmediato, mientras que la función de valor es más indicativa de lo bueno que es estar en este estado / posición a largo plazo. Finalmente, tenemos un modelo M que es la representación del agente del medio ambiente. Este es el modelo del agente de cómo cree que se comportará el entorno.

Todo el entorno de refuerzo de aprendizaje se puede describir con un MDP.

Lea el artículo completo Introducción al aprendizaje por refuerzo para conocer más sobre MDP y algunos ejemplos de la vida real del aprendizaje por refuerzo.

Además, comuníquese con nosotros para obtener más información sobre inteligencia artificial (IA), aprendizaje automático (ML), historias relacionadas con análisis en: blogs, estudios de casos, documentos de investigación

Trinh Quoc Anh

Realmente hay dos diferencias clave:

El aprendizaje supervisado predice una clase y se entrena en clase, el aprendizaje de refuerzo se entrena en una señal de recompensa y predice una acción . Entonces, aunque las entradas son similares, la etiqueta y el entrenamiento son muy diferentes.
El aprendizaje supervisado no tiene estado, RL tiene una dimensión temporal : en el aprendizaje supervisado, el vector de características representa todo lo conocido. En RL, debe mirar el estado ahora y también en el pasado.

En particular, las dos características anteriores ponen en primer plano los problemas de “asignación de crédito” y “maldición de la dimensionalidad”. Estos dos problemas hacen que RL sea considerablemente más difícil que el ML supervisado.

Waleed Kadous

Otras respuestas han señalado diferencias importantes, solo quiero agregar una:

La cantidad de datos necesarios

En el aprendizaje supervisado, necesitamos una gran cantidad de datos para entrenar un modelo.

En Reinforcement Learning, el agente puede generar sus propios datos a través de la interacción con el entorno y, en algunos casos, no necesita datos previos.

Un ejemplo reciente y famoso es AlphaGo Zero: Aprender desde cero | DeepMind, cuando el agente aprende desde cero y se convierte en el mejor de los mejores después de 40 días, superando a todos los humanos y máquinas del mundo.

Creo que esta es una innovación importante, porque refleja cómo los humanos aprenden mejor: a través de la interacción con el medio ambiente y recibir recompensas o castigos en consecuencia.

Trinh Quoc Anh

Suponga que quiere enseñarle a su perro a jugar a buscar. Lo haces con ejemplos. Tiras una pelota de tenis y le enseñas a ir a buscarla por ti.

Aprendizaje supervisado: le dice a su perro que corra 5 pasos hacia adelante, luego gire a la izquierda, luego corra 2 pasos más, luego gire a la derecha y corra 5 pasos más, luego tome la pelota, luego gire a la derecha y corra 2 pasos, luego gire a la derecha nuevamente y corre 10 pasos hacia ti. Le das una palmada a tu perro y una cara feliz en cada acción que hace bien.

Aprendizaje de refuerzo: Dejas que tu perro corra y haga lo que quiera. Cada vez que te devuelve la pelota, le das una galleta como recompensa. Esperas que eventualmente aprenda a optimizar la cantidad de cookies que recibe. Ahora existe la posibilidad de que nunca llegue al balón, por lo que tiene varias opciones:

Regréselo al punto de partida y comience de nuevo (terminación temprana de los episodios de aprendizaje)
Muéstrele que llegue a la pelota, o más cerca de ella (fuera del muestreo de la política)

La principal diferencia es que el aprendizaje por refuerzo está menos supervisado que el aprendizaje supervisado y, por lo tanto, permite que el agente de aprendizaje (su perro en el caso de ejemplo) explore más opciones para hacer el trabajo. Muchas de estas acciones pueden ser más óptimas de lo que se le ocurrió como ejemplos de capacitación en Supervised Learning.

Waleed Kadous

En el aprendizaje supervisado, ha etiquetado los datos para entrenar el algoritmo. Luego, valida lo bueno que es su entrenamiento probándolo en un conjunto de datos de validación para detectar si el entrenamiento conduce a un sobreajuste. Si todo está bien, ahora puede usarlo en el conjunto de datos de prueba.

En el aprendizaje por refuerzo, no hay datos etiquetados. El algoritmo se ejecuta en los datos y, dependiendo de qué tan cerca esté el resultado del resultado deseado, obtiene una recompensa o una penalización. Por ejemplo, si la tarea es clasificación, se recompensa si se clasifica correctamente y se penaliza si se clasifica incorrectamente. Luego, el algoritmo se ejecuta nuevamente, y nuevamente, hasta que las recompensas / penalizaciones no cambien mucho. El algoritmo intenta maximizar la recompensa.

Waleed Kadous

Que juego juegas Tomaremos ajedrez para este ejemplo.

Cualquier algoritmo de aprendizaje supervisado entrenado en los datos generados de mis juegos de ajedrez personales será derrotado por un agente de RL entrenado contra sí mismo.

Un algoritmo SL se aproxima a la política en la que está capacitado. RL descubre la política óptima.

Trinh Quoc Anh

Creo que son apenas comparables. El aprendizaje supervisado actúa en su mayor parte en conjuntos de datos estáticos. El aprendizaje por refuerzo actúa continuamente sobre los datos a medida que están disponibles.

SL no tiene esperanzas de aprender a controlar un robot, por ejemplo, ya que la tarea apenas tiene sentido en un marco de SL.

Trinh Quoc Anh

More Interesting

¿Cuál es el papel de la inteligencia artificial en las telecomunicaciones?

¿Cuál es una instancia de la relación entre la visión por computadora (es decir, OpenCV) y el aprendizaje automático?

En el contexto del aprendizaje automático, ¿qué tan fuerte es la siguiente suposición: algún dato proviene de alguna distribución subyacente?

¿Cómo funciona la IA del juego de ping pong? ¿Qué es una explicación detallada o algunas referencias que lo explican?

¿Cuál es la forma más fácil de entender BFS en Inteligencia Artificial? Con ejemplo.

¿Puede una inteligencia artificial creer algo?

Se predice que para 2025 los robots (sistemas autónomos) podrían reemplazar hasta el 50% de la fuerza laboral. ¿Qué harán los trabajadores reemplazados para ganarse la vida?

¿Podemos crear sistemas con una mayor complejidad que los que se encuentran en la naturaleza?

¿Cómo es usar la nueva aplicación Quora 'escuchando' en los altavoces inteligentes Echo o Home?