Muchos algoritmos de aprendizaje de refuerzo son en realidad un aprendizaje semi-supervisado. De Wikipedia
El aprendizaje de refuerzo ( RL ) es un área de aprendizaje automático inspirada en la psicología conductista, preocupada por la forma en que los agentes de software deben tomar medidas en un entorno para maximizar alguna noción de recompensa acumulativa.
…
- Me gustaría obtener una fórmula matemática para la siguiente ecuación: tengo una matriz de elementos 'n' para los cuales quiero agregar la diferencia entre el elemento de matriz actual y el anterior. ¿Cómo puedo definir una fórmula matemática para explicar lo que estoy haciendo?
- ¿Qué es lo más importante para las empresas de software: código abierto, proyectos extracurriculares o habilidades algorítmicas (habilidades de programación competitiva)?
- ¿Cuál es la lógica detrás de los números de una tarjeta de regalo?
- ¿Cuál fue su enfoque para aprender estructuras de datos y algoritmos?
- ¿Puede un camino más corto contener un ciclo?
El aprendizaje de refuerzo difiere del aprendizaje supervisado estándar en que los pares de entrada / salida correctos nunca se presentan, ni se corrigen explícitamente las acciones subóptimas. En cambio, la atención se centra en el rendimiento en línea, lo que implica encontrar un equilibrio entre la exploración (del territorio desconocido) y la explotación (del conocimiento actual).
En un esquema de aprendizaje de refuerzo típico, el agente observa un estado S , y elige una acción A basada en la política P , y luego el entorno retroalimenta la recompensa R de la acción A, y el entorno cambia al siguiente estado S ‘. Y el proceso continúa hasta que alcanzas el estado HECHO. los objetivo final del aprendizaje por refuerzo? Tal como dice Wikipedia, para maximizar la recompensa total, es decir, la suma de recompensas a largo plazo .
¿Todavía demasiado abstracto? Veamos cómo el aprendizaje por refuerzo juega el juego de ajedrez. En cada turno para el agente, el agente observa el tablero de ajedrez ( estado S ) y elige un movimiento ( acción A ) en función de su algoritmo de juego de ajedrez aprendido ( política P). Luego, el juego (entorno) retroalimenta el resultado del movimiento (tal vez solo el cambio de posición de una pieza, o más tomar una pieza del rival, etc.), que corresponde a la recompensa R, un valor predefinido (generalmente positivo para “Bueno”, negativo para “malo”, cero para “neutral” o “no sabemos si es bueno o malo”, pero definir una función de recompensa es difícil …). Luego el juego continúa y el movimiento resulta en un nuevo estado de tablero de ajedrez ( estado S ‘ ).
Entonces aún puede preguntar, ¿cómo aprende el agente el algoritmo de juego de ajedrez ( política P) ? Bueno, ahí es donde entran en juego todo tipo de técnicas de aprendizaje por refuerzo. Es un gran tema. Básicamente hay dos clases principales: basadas en valores y basadas en políticas. Para obtener más información, consulte Aprendizaje por refuerzo: Wikipedia.