Hay una expresión que se refiere al sobreajuste: “caer en un mínimo local”, como si hubiera algún tipo de zanja o agujero esperándote en la oscuridad.
En ese sentido, el problema de optimización del aprendizaje por refuerzo se parece más a esto:
- Cómo interpretar los resultados de agrupación de k-means
- Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1
- ¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?
- ¿Cuáles serán las características de la próxima generación de servicios de monitoreo social?
- Como estudiante de informática, estoy muy interesado en extraer datos de los mercados bursátiles. ¿Cómo puede ayudarme el aprendizaje automático / minería de datos?
Un agente busca una estrategia óptima, interactuando con el medio ambiente. Si el entorno reacciona “amablemente”, la estrategia se refuerza, el agente está “motivado” para repetir las mismas acciones una y otra vez con el objetivo de obtener una mayor recompensa.
Hay dos problemas importantes en esta situación:
- Si esta es la mejor estrategia? ¿Debería mantenerlo? (explotación)
- ¿Vale la pena buscar una mejor estrategia? (exploración)
La compensación entre exploración y explotación es una de las trampas más famosas. Y como la mayoría de las veces todo el proceso de aprendizaje se basa (idealmente) en un problema de optimización no convexo, el agente puede converger fácilmente al mínimo local más cercano, y están literalmente en todas partes.
Por ejemplo, si su agente está deambulando por un laberinto y encuentra un lugar sin monstruos donde se generan los paquetes de salud, podría quedarse aquí para siempre, a pesar de que el objetivo final puede sentarse detrás de la puerta de al lado.
Este no es el mejor ejemplo, las cosas pueden ponerse aún más feas cuando su agente obtiene recompensas negativas constantes; incluso puede caer en un estado similar a la impotencia aprendida: Wikipedia tiene como objetivo minimizar la recompensa negativa. Manejar estos problemas directamente va en contra de la idea del aprendizaje de refuerzo que básicamente dicta que el agente debe aprender cosas sobre el entorno por sí mismo, sin ningún conocimiento previo introducido por su creador.
Para hacer cumplir el proceso de exploración, los investigadores deben encontrar formas más inteligentes de manejar las recompensas entrantes y alentar el uso de nuevas estrategias, de lo contrario, ocurrirá todo tipo de sobreajuste.
En cierto sentido, las computadoras pueden ser aún más complacientes que las personas.