El marco básico de aprendizaje de refuerzo implica interacciones entre un ‘agente’, es decir, el ‘alumno’ / ‘controlador’ y el ‘entorno’. El agente observa el estado del entorno y selecciona una acción. El entorno reacciona a la acción del Agente cambiando probabilísticamente su estado. El entorno interactúa con el Agente entregándole una cierta reacción que podría ser positiva (Recompensa) o negativa (Penalización o Costo).
Luego, el Agente observa el nuevo estado del entorno, selecciona nuevamente una acción y el proceso se repite. El objetivo del Agente es seleccionar una acción en cada instante teniendo en cuenta el estado del medio ambiente de manera que se maximice una recompensa a largo plazo. La reacción (Recompensa (+ ve) o Penalización (-ve)) que el agente recibe del entorno cuando selecciona una acción desempeña el papel de una señal de “refuerzo”.
Entonces, en términos generales, las actualizaciones del Agente son de naturaleza incremental, lo que resulta en algoritmos que convergen gradualmente a las estrategias óptimas.
- ¿Cómo es usar las API de servicios cognitivos de Microsoft?
- Andrew Ng: ¿Qué opinas de AlphaGo?
- ¿Qué papel jugará la ciencia de datos en las elecciones presidenciales de 2012?
- ¿Cómo lidian las personas con visión artificial con el sobreajuste?
- ¿Por qué la búsqueda de imágenes de Google es tan rápida?
Hay compensaciones relacionadas con el aprendizaje de refuerzo entre ‘exploración’ y ‘explotación’. El Agente puede seleccionar acciones que haya intentado anteriormente y que se haya encontrado que producen una alta recompensa. Sin embargo, al hacerlo, no estaría explorando acciones no probadas previamente que podrían resultar en una recompensa aún mayor. El agente necesita encontrar un equilibrio entre las acciones de explotación conocidas por otorgar grandes recompensas y explorar acciones más nuevas.
En el aprendizaje por refuerzo, las dos categorías generales: las que tratan el problema de la predicción y las que tratan el control. Es conveniente suponer que el controlador selecciona acciones de acuerdo con una política que es una regla de decisión que sugiere qué acción elegir en qué estado. En el problema de la predicción, uno está interesado en evaluar, en términos de la recompensa o el costo a largo plazo, el valor de una política determinada. En el problema del control, el objetivo es encontrar una política de control óptima.
La teoría de juegos, se originó con el artículo de Jon Von Neumann de 1928 sobre el juego de suma cero de 2 jugadores. La contribución de Nash en 1950 en el juego de N-Player, demostró la existencia del equilibrio.
Supongamos que hay jugadores, [matemáticas] a_1, a_2,…, a_ {i-1}, a_i, a_ {i + 1}… ..a_m [/ matemáticas]
Suponiendo que los miembros ‘m’ en el Juego, la acción del miembro ‘i’, está restringida por los otros miembros. Si el Estado social es A, entonces la utilidad del ‘i’ agente es
[matemáticas] f_i (a) = f_i (a_ {Mi}, a_i) [/ matemáticas]
[matemática] f_i (a ^ *) = [/ matemática] Máx. [matemática] \ hspace {1 mm} f_i (a ^ * _ {Mi}, a_i) \ hspace {2mm} [/ matemática] donde [matemática] \ hspace {2mm} a_i \ hspace {2mm} \ epsilon \ hspace {2mm} \ psi_i (a ^ *) [/ math]
[math] A_i [/ math] es convexo, compacto y no está vacío
[math] \ psi_i [/ math] tiene un valor convexo y es continuo
Podemos escribir una formulación extensa del problema de la teoría de juegos con ‘N’ Players y hacer que se parezca a la formulación de Reinforcement Learning, aunque haya algún cambio en el sabor de la formulación.
- Medición del cambio a lo largo del tiempo (aprendizaje de diferencia temporal) vs determinación del estado del mundo en ‘t’, donde el sistema alcanza el equilibrio.
- Espacio de estado infinito vs espacio de estado finito
- Problema de aprendizaje vs problema de planificación
Los puntos mencionados anteriormente son una especie de escasos detalles de andamios para construir, una abstracción para abarcar los detalles del problema en cuestión que se está formulando. En otras palabras, principalmente estructuras de lenguaje, que le informarán mejor cuál elegir, dependiendo de a quién esté formulando el problema, ya sea la comunidad de Aprendizaje por refuerzo / Aprendizaje automático / Inteligencia artificial o la comunidad Económica / Teoría de juegos / Álgebra lineal .