¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es un tipo de algoritmos de aprendizaje automático que permite a los agentes y máquinas de software determinar automáticamente el comportamiento ideal dentro de un contexto específico, para maximizar su rendimiento.

De acuerdo con KDnuggets, “el aprendizaje por refuerzo tiene que ver con el problema de encontrar acciones adecuadas para tomar en una situación dada a fin de maximizar una recompensa”.

Los algoritmos de refuerzo no tienen objetivos explícitos; en cambio, se ven obligados a aprender estos objetivos óptimos por prueba y error. Piensa en el clásico videojuego de Mario Bros. Los algoritmos de aprendizaje de refuerzo determinarían, por prueba y error, que ciertos movimientos y pulsaciones de botón avanzarían la posición del jugador en el juego, y la prueba y error apuntarían a dar como resultado un estado óptimo de juego.

El modelo de aprendizaje por refuerzo profetiza la interacción entre dos elementos: el entorno y el agente de aprendizaje. El entorno recompensa al agente por las acciones correctas, que es la señal de refuerzo. Aprovechando las recompensas obtenidas, el agente mejora su conocimiento del entorno para seleccionar la siguiente acción.

Continúe leyendo para obtener más detalles ¿Cómo pueden las empresas aprovechar el aprendizaje por refuerzo?

En caso de que necesite más información sobre aprendizaje automático e inteligencia artificial, consulte estos artículos:

→ Inteligencia artificial y aprendizaje automático simplificado
→ ¿Es la inteligencia artificial la clave para combatir las noticias falsas?
→ Retos que enfrentan las empresas para adoptar Machine Learning

Aprendizaje automáticoAprendizaje por refuerzoInteligencia Artificial

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?

En cuanto al aprendizaje automático o el aprendizaje profundo, ¿existe el fenómeno de que el modelo funciona bien pero el diseñador no puede explicar la razón?

¿Cómo se puede diseñar la topología de una red neuronal artificial con una capa oculta para lograr efectivamente la reducción de la dimensionalidad?

¿Cuál es la mejor antena para transmitir televisión?

¿Dónde usa Quora el aprendizaje automático?

A2A. El aprendizaje de refuerzo es la intersección del aprendizaje automático, las decisiones y el control, y la psicología del comportamiento. La intersección se puede abordar desde los tres lados, y una explicación detallada está más allá del alcance de una respuesta de quora. Dicho esto, intentaré dar una breve descripción de las tres perspectivas.

Machine Learning : desde la perspectiva de ML, RL es el paradigma de aprender a controlar. Piense en cómo aprendió a andar en bicicleta o cómo aprendió a practicar un deporte. Estas tareas de aprendizaje no están supervisadas: nadie le dice el movimiento correcto que debe hacer en una posición de tablero, o exactamente la cantidad de ángulo para inclinarse hacia los lados para equilibrar el ciclo. Tampoco están completamente sin supervisión, ya que se observan algunos comentarios, ya sea que haya ganado o perdido el juego después de una secuencia de movimientos, con qué frecuencia cae del ciclo. Por lo tanto, RL está aprendiendo a tomar buenas decisiones a partir de comentarios evaluativos parciales.
Teoría de control y decisión: En la teoría del control (y la planificación de la IA), se asume un conocimiento perfecto sobre el mundo, y el objetivo es encontrar la mejor manera de comportarse. Sin embargo, para muchos problemas, el conocimiento sobre el mundo no es perfecto. Por lo tanto, explorar el mundo podría aumentar nuestro conocimiento y eventualmente ayudarnos a tomar mejores decisiones. RL está equilibrando la compensación de exploración-explotación en problemas de toma de decisiones secuenciales.
Psicología del comportamiento: El objetivo simplificado de la psicología del comportamiento es explicar por qué, cuándo y cómo los humanos toman decisiones. Consideramos a los humanos como agentes racionales y, por lo tanto, la psicología también intenta, en cierta medida, explicar el comportamiento racional. Uno puede estudiar los principios biológicos de cómo se forman las opiniones, que tienen conexiones cercanas con el aprendizaje de diferencias temporales y los rastros de elegibilidad. RL es el paradigma para explicar cómo los humanos forman opiniones y aprenden a tomar buenas decisiones con experiencia.

Rohit Akiwatkar

El aprendizaje por refuerzo es uno de los tres tipos de aprendizaje automático. Los otros dos son Aprendizaje supervisado y no supervisado.

Entonces, ¿qué es el aprendizaje por refuerzo?

Imaginemos que un bebé recién nacido se encuentra con una vela encendida. Ahora, el bebé no sabe qué sucede si toca la llama. Finalmente, por curiosidad, el bebé intenta tocar la llama y se lastima. Después de este incidente, el bebé aprende que repetir lo mismo nuevamente podría lastimarlo. Entonces, la próxima vez que vea una vela encendida, será más cauteloso.

Así es exactamente cómo funciona el aprendizaje por refuerzo. El aprendizaje de refuerzo es un tipo de aprendizaje automático en el que, en el sistema que se va a capacitar para realizar un trabajo en particular, aprende por sí mismo en función de sus experiencias y resultados anteriores, mientras realiza un tipo de trabajo similar. Las aplicaciones más comunes del aprendizaje por refuerzo son:

1. Juegos de PC :

El aprendizaje de refuerzo se está utilizando ampliamente en juegos de PC como Assasin’s Creed, Chess, etc., donde los enemigos cambian sus movimientos y su enfoque en función de su rendimiento.

2. Robótica:

La mayoría de los robots que ves en el mundo actual se ejecutan en el aprendizaje por refuerzo.

3. AlphaGO :

Go es un juego de mesa chino que se dice que es más complejo que el ajedrez. Recientemente, los científicos crearon un programa llamado ‘AlphaGo’ que compitió con el campeón mundial en este juego y ganó.

Tratemos de comprender el aprendizaje por refuerzo con un diagrama:

Mira la imagen aquí.

Proporciona al sistema una imagen de una manzana y le pide que la identifique.
La computadora aparece con una respuesta como se puede ver en la imagen … dice que es un ‘mango’.
Le dice al sistema que es una respuesta incorrecta y que la imagen es de una manzana. Esa es la retroalimentación.
La máquina aprende de los comentarios.
Finalmente, si se encuentra con otra imagen de una manzana, podrá identificarla correctamente.

Eso es aprendizaje de refuerzo.

Entonces, en caso de aprendizaje de refuerzo, el sistema toma una decisión, aprende de los comentarios y toma mejores decisiones en el futuro.

Aquí hay un enlace a un video que puede ser realmente útil para cualquier persona que quiera saber sobre el aprendizaje automático.

Espero que esto te ayude a entender. Si está interesado en obtener más información sobre el aprendizaje automático y obtener un conocimiento profundo, consulte nuestra Capacitación sobre certificación de aprendizaje automático .

Peng Liu

El aprendizaje automático se puede clasificar ampliamente en 3 categorías:

Aprendizaje supervisado
Aprendizaje sin supervisión
Aprendizaje reforzado

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es un enfoque computacional utilizado para comprender y automatizar el aprendizaje dirigido a objetivos y la toma de decisiones. Se distingue de otros enfoques computacionales por su énfasis en el aprendizaje por parte del individuo de la interacción directa con su entorno, sin depender de algún conjunto de datos etiquetado predefinido.

Al alumno no se le dice qué acciones tomar, como en la mayoría de las formas de aprendizaje automático, sino que debe descubrir qué acciones producen la mayor recompensa probándolas. En los casos más interesantes y desafiantes, las acciones pueden afectar no solo la recompensa inmediata sino también la próxima situación y, a través de eso, todas las recompensas posteriores. Estas dos características: búsqueda de prueba y error y recompensa retrasada son las características distintivas del aprendizaje por refuerzo.

El modelo de aprendizaje de refuerzo consiste en:

Un conjunto de estados ambientales y de agentes S.
Un conjunto de acciones A del agente.
Políticas de transición de estados a acciones.
Reglas que determinan la recompensa escalar inmediata de una transición.
Reglas que describen lo que observa el agente.

Una tarea se define mediante un conjunto de estados, s∈S, un conjunto de acciones, a∈A, una función de transición de estado-acción,

T: S × A → S, y una función de recompensa, R: S × A → R. En cada paso de tiempo, el alumno (también llamado agente) selecciona una acción y, como resultado, recibe una recompensa y su nuevo estado. El objetivo del aprendizaje por refuerzo es aprender una política, un mapeo de estados a acciones, Π: S → A que maximiza la suma de su recompensa a lo largo del tiempo.

En el aprendizaje automático, el entorno se formula como un proceso de decisión de Markov (MDP) , ya que muchos algoritmos de aprendizaje de refuerzo para este contexto utilizan técnicas de programación dinámica.

Elementos del aprendizaje por refuerzo:

Excepto por el agente y el entorno, tenemos cuatro subelementos del sistema de aprendizaje por refuerzo:

Política: define la forma de comportarse del agente de aprendizaje en un momento dado.
Función de recompensa: define el objetivo en el problema de aprendizaje por refuerzo.
Función de valor: especifica lo que es bueno a largo plazo.
Modelo del entorno (opcional): los modelos se utilizan para la planificación, por lo que nos referimos a cualquier forma de decidir un curso de acción al considerar posibles situaciones futuras antes de que realmente se experimenten.

Las recompensas son, en cierto sentido, primarias, mientras que los valores, como predicciones de recompensas, son secundarios. Sin recompensas, no podría haber valores, y el único propósito de estimar valores es lograr más recompensa.

¿Como funciona?

El aprendizaje de refuerzo consiste en tratar de comprender la forma óptima de tomar decisiones / acciones para maximizar la recompensa R. Esta recompensa es una señal de respuesta que muestra qué tan bien le está yendo al agente en un paso de tiempo dado. La acción A que realiza un agente en cada paso del tiempo es una función tanto de la recompensa como del estado S , que es una descripción del entorno en el que se encuentra el agente. La asignación de los estados del entorno a las acciones es la política P. La política básicamente define la forma de comportamiento del agente en un momento determinado, dada una determinada situación. Ahora, también tenemos una función de valor V que es una medida de cuán buena es cada posición. Esto es diferente de la recompensa en que la señal de recompensa indica lo que es bueno en el sentido inmediato, mientras que la función de valor es más indicativa de lo bueno que es estar en este estado / posición a largo plazo. Finalmente, tenemos un modelo M que es la representación del agente del medio ambiente. Este es el modelo del agente de cómo cree que se comportará el entorno.

Todo el entorno de refuerzo de aprendizaje se puede describir con un MDP.

Lea el artículo completo Introducción al aprendizaje por refuerzo para conocer más sobre MDP y algunos ejemplos de la vida real del aprendizaje por refuerzo.

Además, comuníquese con nosotros para obtener más información sobre inteligencia artificial (IA), aprendizaje automático (ML), historias relacionadas con análisis en: blogs, estudios de casos, documentos de investigación

Sarah Wilson

El aprendizaje de refuerzo ( RL ) es un área de aprendizaje automático inspirada en la psicología conductista, preocupada por cómo los agentes de software deberían tomar medidas en un entorno para maximizar alguna noción de recompensa acumulativa. El problema, debido a su generalidad, se estudia en muchas otras disciplinas, como la teoría de juegos, la teoría de control, la investigación de operaciones, la teoría de la información, la optimización basada en simulación, los sistemas de múltiples agentes, la inteligencia de enjambre, las estadísticas y los algoritmos genéticos. En la literatura de investigación y control de operaciones, el campo donde se estudian los métodos de aprendizaje por refuerzo se llama programación dinámica aproximada . El problema ha sido estudiado en la teoría del control óptimo, aunque la mayoría de los estudios están relacionados con la existencia de soluciones óptimas y su caracterización, y no con los aspectos de aprendizaje o aproximación. En economía y teoría de juegos, el aprendizaje por refuerzo puede usarse para explicar cómo puede surgir el equilibrio bajo una racionalidad limitada.

En el aprendizaje automático, el entorno generalmente se formula como un proceso de decisión de Markov (MDP), ya que muchos algoritmos de aprendizaje de refuerzo para este contexto utilizan técnicas de programación dinámica. La principal diferencia entre las técnicas clásicas y los algoritmos de aprendizaje de refuerzo es que estos últimos no necesitan conocimiento sobre el MDP y se dirigen a grandes MDP donde los métodos exactos se vuelven inviables.

El aprendizaje de refuerzo difiere del aprendizaje supervisado estándar en que los pares de entrada / salida correctos nunca se presentan, ni se corrigen explícitamente las acciones subóptimas. En cambio, la atención se centra en el rendimiento en línea, lo que implica encontrar un equilibrio entre la exploración (del territorio desconocido) y la explotación (del conocimiento actual). El intercambio entre exploración y explotación en el aprendizaje por refuerzo se ha estudiado más a fondo a través del problema de los bandidos con múltiples brazos y en MDP finitos.

Sandeep Chahal

En los problemas de aprendizaje por refuerzo, la retroalimentación es simplemente un valor escalar que puede retrasarse en el tiempo. Esta señal de refuerzo refleja el éxito o el fracaso de todo el sistema después de haber realizado alguna secuencia de acciones. Por lo tanto, la señal de refuerzo no asigna crédito o culpa a ninguna acción (el problema de asignación de crédito temporal), ni a ningún nodo particular o elemento del sistema (el problema de asignación de crédito estructural).

En contraste, en el aprendizaje supervisado, la retroalimentación está disponible después de cada acción del sistema, eliminando el problema de asignación de crédito temporal; Además, indica el error de los nodos individuales en lugar de simplemente decir qué tan bueno fue el resultado. Los métodos de aprendizaje supervisados, por ejemplo, propagación hacia atrás, agrupación fuera de línea, optimización matemática e ID3, se basan en tener señales de error para los nodos de salida del sistema y, por lo general, se entrenan en un conjunto fijo de ejemplos que se conocen de antemano. Pero no todos los problemas de aprendizaje se ajustan a este paradigma. Los métodos de aprendizaje de refuerzo son apropiados cuando se requiere que el sistema aprenda en línea, o un maestro no está disponible para proporcionar señales de error o resultados objetivo. Ejemplos incluyen:

Jugando juego

Si no hay un maestro, el jugador debe poder determinar qué acciones fueron críticas para el resultado y luego alterar sus heurísticas en consecuencia.

Aprendiendo en un micromundo

El agente debe desarrollar la capacidad de clasificar sus percepciones y de correlacionar su conciencia de su entorno con la satisfacción de impulsos primitivos como el placer y el dolor.

Control en línea

Los controladores de procesos automatizados, como los gasoductos o los sistemas de fabricación, deben adaptarse a un entorno que cambia dinámicamente, donde generalmente no se conocen las heurísticas óptimas.

Exploración autónoma de robots

Los robots autónomos pueden hacer una exploración factible de entornos peligrosos como el océano y el espacio ultraterrestre, utilizando el aprendizaje en línea para adaptarse a condiciones cambiantes e imprevistas.

Espero que esto ayude.

Sadid Hasan

Solo pensé en relacionar este concepto con una de las grandes películas de ciencia ficción ” Edge of Tomorrow “. En la película, Cage (Tom Cruise) toma la sangre del Alfa, luego se convierte efectivamente en el nuevo Alfa y, por lo tanto, su muerte desencadena el reinicio del día. Entonces, cada vez que Cage muere, el día se reinicia, y luego se encuentra despertando en la base militar. Finalmente, Cage se da cuenta de que la tarea final es matar a Omega. Entonces, para lograr la tarea, cada vez que se despierta, maneja sus actividades para encontrar una manera de llegar a Omega y matarlo. Cualquier acción que cause su muerte, intenta evitarla la próxima vez y cualquier acción que genere una nueva ventaja para lograr su objetivo, la incorpora para mejorar su próxima acción.

En el contexto del aprendizaje por refuerzo, la declaración del problema es alcanzar al Omega y matarlo , donde Cage es un agente que interactúa con el entorno (que es todo el entorno donde está Cage) a través de sus acciones (actividades de Cage) y recibe una recompensa ( encontrar una pista para acercarse a la ubicación de Omega) a cambio. Aprende de los resultados de sus acciones (por ensayo y error) selecciona más sus acciones que maximizan su recompensa acumulada con el tiempo.

Definición: El aprendizaje por refuerzo es un tipo de aprendizaje automático influenciado por la psicología conductista. Se refiere a cómo los agentes de software deberían actuar en un entorno para maximizar alguna noción de recompensa acumulativa.

Está aprendiendo qué hacer, cómo mapear situaciones a acciones para maximizar una señal numérica de recompensa. No utiliza ningún conjunto de datos de entrenamiento para aprender el patrón, a diferencia de otros métodos de aprendizaje. Al alumno no se le dice qué acciones tomar, como en la mayoría de las formas de aprendizaje automático, sino que debe descubrir qué acciones producen la mayor recompensa probándolas.

Sandeep Chahal

“Refuerzo” como su nombre indica una acción o fortalecer algo de cualquier dato. El aprendizaje por refuerzo es el más destacado y se usa ampliamente hoy en día, especialmente en el campo de la robótica.

A diferencia del aprendizaje supervisado y no supervisado , aprende de las malas experiencias y luego trata de adaptarse según el entorno o la tarea que se le ha proporcionado. Por ejemplo,

Imagine una tarea que le ha asignado al robot integrado con sensor (como Roomba) para caminar solo en línea recta, es decir, hacia la izquierda o hacia la derecha. Ahora pones ese robot en el punto más a la izquierda en una mesa como esta:

Ahora, después de caminar cierta distancia, el robot definitivamente se detendría (punto más a la derecha) para evitar que nos caigáramos de la mesa. Después de eso, el robot rastreará su camino hacia atrás (ya que solo se han asignado dos direcciones) y se detendrá nuevamente para salvarse (punto más a la izquierda).

Ahora aquí hay una trampa, pero antes de esto dígame la respuesta a esta pregunta: ¿Nuestro robot inteligente volverá a trazar el mismo camino inicial?

Por supuesto que no, ya que él ya aprendió que sería un desperdicio de poder / tiempo seguir el mismo camino que no es bueno para su vida. Por lo tanto, podemos decir que el robot ha aprendido inteligentemente de la mala experiencia. y lo recordaría para su próximo viaje debido al aprendizaje por refuerzo .

Peng Liu

El aprendizaje por refuerzo es una de las áreas de investigación más activas en Inteligencia Artificial. El aprendizaje de refuerzo es el entrenamiento mediante recompensas y castigos. Aquí entrenamos una computadora como si entrenamos a un perro. Si el perro obedece y actúa de acuerdo con nuestras instrucciones, lo alentamos dándole galletas o lo castigamos golpeándolo o regañándolo. De manera similar, si el sistema funciona bien, entonces el maestro da un valor positivo (es decir, una recompensa) o el maestro da un valor negativo (es decir, un castigo). El sistema de aprendizaje que recibe el castigo tiene que mejorar. Por lo tanto, es un proceso de prueba y error. Los algoritmos de aprendizaje de refuerzo retienen selectivamente las salidas que maximizan la recompensa recibida con el tiempo.

El aprendizaje de refuerzo es diferente del aprendizaje supervisado , el tipo de aprendizaje estudiado en la mayoría de las investigaciones actuales sobre aprendizaje automático, reconocimiento de patrones estadísticos y redes neuronales artificiales. El aprendizaje supervisado es aprender de ejemplos proporcionados por un supervisor externo conocedor. Este es un tipo importante de aprendizaje, pero solo no es adecuado para aprender de la interacción. En problemas interactivos, a menudo no es práctico obtener ejemplos del comportamiento deseado que sean correctos y representativos de todas las situaciones en las que el agente tiene que actuar. En un territorio desconocido, donde uno esperaría que el aprendizaje sea más beneficioso, un agente debe poder aprender de su propia experiencia.

Funciones de recompensa defectuosas en la naturaleza
Página de índice de OpenAI

Rohit Akiwatkar

El aprendizaje por refuerzo implica enseñar a la máquina a pensar por sí misma mediante el uso de un sistema de recompensas.

Digamos que tiene un robot cuyo movimiento tiene la intención de controlar en una ruta predefinida. Desea que el robot aprenda a moverse por este camino predefinido sin su ayuda. Entonces, usted define un sistema de recompensas: por cada paso correcto dado por el robot, se realiza una recompensa y por cada movimiento incorrecto, se quita una recompensa. Esencialmente, le enseñas al robot a entender que la recompensa es buena para él. El robot finalmente aprende, reforzado por sus varias recompensas y errores en el camino real.

(Es posible que desee saltar a los últimos 30 segundos para ver al robot caminar por la victoria. Principalmente solo trata de reconocer sus extremidades)

Para otro ejemplo, es posible que desee ver esto:

PD: nunca he usado ML. Asistí a algunas conferencias introductorias y esas son mis únicas credenciales. Lo anterior es lo que he entendido como resultado de esas conferencias. Espero que la respuesta sea útil.

Abby Walters

El aprendizaje por refuerzo es un tipo de aprendizaje automático y, por lo tanto, también una rama de la inteligencia artificial . Permite que las máquinas y los agentes de software determinen automáticamente el comportamiento ideal dentro de un contexto específico, con el fin de maximizar su rendimiento. Se requiere retroalimentación de recompensa simple para que el agente aprenda su comportamiento; Esto se conoce como la señal de refuerzo.

Hay muchos algoritmos diferentes que abordan este problema. De hecho, el aprendizaje por refuerzo se define por un tipo específico de problema, y todas sus soluciones se clasifican como algoritmos de aprendizaje por refuerzo. En el problema, se supone que un agente decide la mejor acción para seleccionar en función de su estado actual. Cuando se repite este paso, el problema se conoce como un proceso de decisión de Markov .

¿Por qué el aprendizaje por refuerzo?

Motivación…

R einforcement Learning permite que la máquina o el agente de software aprendan su comportamiento en función de los comentarios del entorno. Este comportamiento se puede aprender de una vez por todas, o seguir adaptándose a medida que pasa el tiempo. Si el problema se modela con cuidado, algunos algoritmos de aprendizaje por refuerzo pueden converger al óptimo global; Este es el comportamiento ideal que maximiza la recompensa.

Este esquema de aprendizaje automatizado implica que hay poca necesidad de un experto humano que conozca el dominio de la aplicación. Se pasará mucho menos tiempo diseñando una solución, ya que no hay necesidad de elaborar a mano conjuntos complejos de reglas como con Expert Systems , y todo lo que se requiere es alguien familiarizado con el aprendizaje por refuerzo.

¿Cómo funciona el aprendizaje por refuerzo?

Tecnología…

Como se mencionó, hay muchas soluciones diferentes para el problema. Sin embargo, los más populares permiten que el agente de software seleccione una acción que maximice la recompensa a largo plazo (y no solo en el futuro inmediato). Se sabe que tales algoritmos tienen un horizonte infinito.

En la práctica, esto se hace aprendiendo a estimar el valor de un estado en particular. Esta estimación se ajusta con el tiempo propagando parte de la recompensa del próximo estado. Si todos los estados y todas las acciones se prueban una cantidad suficiente de veces, esto permitirá definir una política óptima; Se elige la acción que maximiza el valor del siguiente estado.

Sadid Hasan

Aprendizaje de refuerzo: en el corazón de RL se encuentra la siguiente analogía: considere enseñarle a un perro un nuevo truco: no puede decirle qué hacer, pero puede recompensarlo / castigarlo si hace lo correcto / incorrecto. Tiene que descubrir qué hizo que lo hizo obtener la recompensa / castigo. Un agente de RL aprende interactuando con su entorno observando los resultados de estas interacciones (causa-efecto)

La idea de “causa y efecto” se puede traducir en los siguientes pasos para un agente RL:

El agente observa un estado de entrada.
Una acción está determinada por una función de toma de decisiones (política)
La acción se realiza
El agente recibe una recompensa escalar o refuerzo del entorno.
Se registra información sobre la recompensa otorgada para ese par estado / acción

RL es una forma de aprendizaje no supervisado: un agente de RL aprende al recibir una recompensa o refuerzo de su entorno, sin ninguna otra forma de supervisión que no sea su propia política de toma de decisiones.

Formalmente: el entorno se modela como una máquina de estado finito estocástico con entradas (acciones enviadas desde el agente) y salidas (observaciones y recompensas enviadas al agente)

Función de transición de estado P (X (t) | X (t-1), A (t))
Función de observación (salida) P (Y (t) | X (t), A (t))
Función de recompensa E (R (t) | X (t), A (t))

El agente también se modela como FSM estocástico con entradas (observaciones / recompensas enviadas desde el entorno) y salidas (acciones enviadas al entorno).
Función de transición de estado: S (t) = f (S (t-1), Y (t), R (t), A (t))
Función de política / salida: A (t) = pi (S (t)))

El objetivo del agente es encontrar una política y una función de actualización de estado para maximizar la suma esperada de recompensas con descuento.

Peng Liu

En los algoritmos de aprendizaje ML de refuerzo, la máquina está entrenada para comprender las actividades que se desarrollan en el mundo, al igual que los seres humanos, aplicando un cierto nivel de inteligencia. ¡La máquina aprende de las repercusiones de sus propias acciones sin que se le enseñe nada! En resumen, el propósito del aprendizaje de refuerzo es tener una buena política , no una buena decisión . Para entenderlo, tomemos un ejemplo de su mascota. Considera enseñarle al perro un nuevo truco: no puedes decirle qué hacer, pero puedes recompensar si hace las cosas bien y penalizar si hace las cosas mal. El agente de RL (Perro) tiene que descubrir qué hizo para que obtuviera la recompensa / castigo. Un agente de RL (Perro) aprende interactuando con su entorno observando los resultados de estas interacciones.

5 COSAS que debes saber sobre RL : –

No hay supervisor, solo una noción de recompensa
Eso significa que RLagent es quien toma las decisiones, basado en alguna recompensa por acción.
La retroalimentación es retrasada, no instantánea. A diferencia de otras técnicas de ML, la respuesta puede retrasarse en RL, incluso puede ser al final, a diferencia de otras técnicas
El tiempo importa. La distribución ya no es independiente e idéntica, cambia con el tiempo, a medida que nuestro agente toma decisiones
Las acciones del agente afectan los datos posteriores que recibe. Como el agente realmente interactúa con el entorno, la siguiente acción depende de la acción actual.

Aravind Rajeswaran

¡Esto es lo que aprendí de mi curso de aprendizaje automático!
Al enseñar a un agente a aprender algo, hay tres formas principales.
Aprendizaje supervisado: al enseñarle a un agente algo, le proporciona una hoja de respuestas, donde el agente puede ver la respuesta después de sus propios cálculos. Si la respuesta es correcta, hará lo mismo para ese rango particular de entrada.

Aprendizaje sin supervisión: no hay una hoja de respuestas y el agente está solo. Intentará limitarse con las heurísticas o medidas con las que está configurado

Aprendizaje de refuerzo: cuando el agente proporciona la respuesta correcta, el entrenador le dice “buen agente” y si proporciona una respuesta incorrecta, el entrenador lo reprende diciendo “mal agente malo”. Al final, el agente intenta ganar más recompensas.

Aravind Rajeswaran

Si desea conocer detalles sobre RL, siga este curso:

De lo contrario, el aprendizaje por refuerzo es la mente del robot: incluye (1) un modelo de valor para juzgar qué es bueno / malo en el mundo real y (2) la toma de decisiones basada en el modelo de valor (por ejemplo, codicioso o épsilon-codicioso). )

Sarah Wilson

Aquí hay una guía para principiantes muy simple sobre aprendizaje por refuerzo con ejemplos mundanos interesantes: Guía simple para principiantes sobre aprendizaje por refuerzo y su implementación. ¡Espero que esto ayude!

Peng Liu

El término AI para el control discreto del espacio de estado.

Sarah Wilson

More Interesting

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

Dado que existen marcos optimizados en línea, ¿vale la pena implementar manualmente implementaciones vectorizadas para redes neuronales complicadas?

En una red neuronal, ¿cómo podemos resolver (o limitar) el problema de la saturación de las neuronas?

¿Las redes de confrontación generativas funcionan para la detección de valores atípicos?

¿Puedo aprender ML por mi cuenta?

¿Los programas de software de aprendizaje automático toman riesgos?

Word2vec: ¿Cómo puede el método de entrenamiento jerárquico soft-max de CBOW garantizar su autoconsistencia?

En términos simples, ¿cómo funciona Gibbs Sampling?