La optimización consiste en métodos para encontrar (o acercarse) a los valores que maximizan o minimizan alguna función (por ejemplo, la función f (x) = x ^ 2 + x tiene su valor más pequeño en x = -0.5). Existen muchos métodos diferentes para optimizar diferentes funciones: algunos de los que quizás haya oído hablar son el descenso de gradiente, el método de Newton, los gradientes conjugados, los algoritmos genéticos y el recocido simulado.
En el aprendizaje por refuerzo, tiene un “agente” que interactúa con un proceso de decisión de Markov y desea que el agente maximice la recompensa que obtiene. – tl: dr hay un conjunto de estados para representar el entorno, un conjunto de acciones que el agente puede tomar en cada estado que puede conducir a un cambio de estado y una “recompensa”, un número que representa los objetivos del agente.
Por lo general, RL implica cambiar el comportamiento de los agentes, por lo que es más probable que tome medidas que resultaron en altas recompensas en el pasado: esta es la parte de “aprendizaje”. Algunos métodos de RL, como los métodos de gradiente de política, implican cambiar la “política”, una función que determina qué acción tomará el agente en un estado dado. Otros métodos como el Q-learning y la iteración de valores implican que el agente aprenda a adivinar cuánta recompensa futura obtendrá de tomar una acción determinada en un estado dado. Algunos, como los métodos de actor crítico, hacen ambas cosas al mismo tiempo.
- ¿Cuál es la mejor herramienta para ejecutar un código de aprendizaje automático?
- ¿Cuál es el flujo de trabajo típico para usar el aprendizaje profundo para resolver un problema?
- Cómo usar KNN para datos mixtos (categóricos y numéricos)
- ¿Dónde se puede usar la visión computacional en el aprendizaje profundo?
- ¿Qué área de IA y aprendizaje profundo es útil para vehículos autónomos?
De cualquier manera, todavía se puede ver como una especie de optimización: está maximizando el valor esperado de la suma de recompensas futuras o la precisión de las predicciones de recompensas futuras.