El aprendizaje por refuerzo (RL) es un algoritmo de aprendizaje basado en objetivos donde uno tiene que encontrar la acción correcta para cada nuevo estado del entorno. Obtiene una recompensa por cada acción correcta, pero su objetivo es maximizar la recompensa total (lograr el objetivo).
En finanzas, RL se puede utilizar para maximizar los rendimientos de su cartera. Puede considerar el espacio de acción comprar / vender / retener para cada observación del mercado (que es el entorno en este caso). Su recompensa es el dinero ganado en cada tic. Su objetivo final es maximizar el valor total de su cartera.
En economía, una organización gubernamental puede utilizar RL para maximizar el PIB de un país. Su vector de acción puede ser [tasas de interés, tasa de recompra, tasa GST, beneficios otorgados, aranceles, gastos de infraestructura, etc.] Su espacio de acción es aumentar / disminuir / mantener para cada parámetro. El medio ambiente es el estado económico del país y la recompensa es el aumento / disminución del PIB.
- ¿Cuál es la diferencia entre máquinas de vectores de soporte y aprendizaje profundo?
- ¿Cómo se usa la informática en su trabajo / campo?
- ¿Cuáles son las diferentes técnicas de minería de texto?
- ¿Qué significa splines de regresión adaptativa múltiple (MARS) en términos simples?
- Cómo aprender un campo aleatorio condicional
Los dos casos de uso mencionados anteriormente son muy difíciles de simular, ya que hay una gran cantidad de parámetros que afectan el PIB y el precio de las acciones. Además, al predecir el precio de las acciones, sus acciones apenas afectan a los mercados (a menos que negocie en grandes cantidades), por lo que es más un problema de bandidos con múltiples brazos que RL.