¿El sobreajuste es un problema en el aprendizaje de refuerzo profundo?

Hay una expresión que se refiere al sobreajuste: “caer en un mínimo local”, como si hubiera algún tipo de zanja o agujero esperándote en la oscuridad.

En ese sentido, el problema de optimización del aprendizaje por refuerzo se parece más a esto:

Un agente busca una estrategia óptima, interactuando con el medio ambiente. Si el entorno reacciona “amablemente”, la estrategia se refuerza, el agente está “motivado” para repetir las mismas acciones una y otra vez con el objetivo de obtener una mayor recompensa.

Hay dos problemas importantes en esta situación:

  1. Si esta es la mejor estrategia? ¿Debería mantenerlo? (explotación)
  2. ¿Vale la pena buscar una mejor estrategia? (exploración)

La compensación entre exploración y explotación es una de las trampas más famosas. Y como la mayoría de las veces todo el proceso de aprendizaje se basa (idealmente) en un problema de optimización no convexo, el agente puede converger fácilmente al mínimo local más cercano, y están literalmente en todas partes.

Por ejemplo, si su agente está deambulando por un laberinto y encuentra un lugar sin monstruos donde se generan los paquetes de salud, podría quedarse aquí para siempre, a pesar de que el objetivo final puede sentarse detrás de la puerta de al lado.

Este no es el mejor ejemplo, las cosas pueden ponerse aún más feas cuando su agente obtiene recompensas negativas constantes; incluso puede caer en un estado similar a la impotencia aprendida: Wikipedia tiene como objetivo minimizar la recompensa negativa. Manejar estos problemas directamente va en contra de la idea del aprendizaje de refuerzo que básicamente dicta que el agente debe aprender cosas sobre el entorno por sí mismo, sin ningún conocimiento previo introducido por su creador.

Para hacer cumplir el proceso de exploración, los investigadores deben encontrar formas más inteligentes de manejar las recompensas entrantes y alentar el uso de nuevas estrategias, de lo contrario, ocurrirá todo tipo de sobreajuste.

En cierto sentido, las computadoras pueden ser aún más complacientes que las personas.

RL es un escenario de problema interesante en el que el agente siempre puede salir y recopilar más ejemplos del entorno, y no hay ruido de confrontación. Suponiendo que el agente esté explorando, en el límite de muestras grandes, el sobreajuste no es una gran preocupación. Sin embargo, en la práctica es posible que queramos limitar la recolección de muestras: es costoso y puede ser peligroso para el agente. O algunos dominios pueden ser tan vastos que el agente puede ver un número muy pequeño de muestras de acción de estado después de una exploración. En tales casos, un agente que utiliza un aproximador de función suficientemente complejo puede ajustarse en exceso a las pequeñas cantidades de muestras recolectadas y crear políticas o valores que no se generalizarán a los estados invisibles.

More Interesting

¿Qué tema es importante para la ingeniería integrada, las redes neuronales o la automoción moderna?

¿En qué se diferencia PyTorch de TensorFlow? ¿Cuáles son las ventajas de usar uno versus el otro? ¿Cuándo debo usar uno u otro?

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

Para un problema de clasificación (dos clases), ¿es mejor usar dos salidas con softmax o una salida con entropía cruzada binaria?

¿Qué tan difícil es el aprendizaje automático?

¿Qué significa el modelo semántico distribucional (DSM) en el procesamiento del lenguaje natural?

Aprendí algo de teoría de la probabilidad, pero aún me cuesta leer el aprendizaje automático: una perspectiva probabilística. ¿Qué libro de texto de teoría de probabilidad me recomiendan para estudiar el aprendizaje automático?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?

Cómo diferenciar entre características globales y características locales en una imagen

¿Cómo implementaría el servicio de noticias de Quora?

En problemas de optimización matemática, a menudo se usa la primera derivada. ¿Por qué no el segundo, o derivados de orden superior?

¿Cómo analizaría programáticamente una oración y decidiría si responde con "eso es lo que dijo"? Resuma un algoritmo que, dada una oración, devuelve verdadero o falso para determinar si la declaración es apropiada.

¿Alguien puede resolver este ejemplo de algoritmo EM?