¿El sobreajuste es un problema en el aprendizaje de refuerzo profundo?

Hay una expresión que se refiere al sobreajuste: “caer en un mínimo local”, como si hubiera algún tipo de zanja o agujero esperándote en la oscuridad.

En ese sentido, el problema de optimización del aprendizaje por refuerzo se parece más a esto:

Cómo interpretar los resultados de agrupación de k-means
Cómo llamar a clasificadores y conjuntos de datos de WEKA a Netbeans IDE 7.1
¿Cómo se diseñan las redes neuronales artificiales y qué teoremas académicos las respaldan?
¿Cuáles serán las características de la próxima generación de servicios de monitoreo social?
Como estudiante de informática, estoy muy interesado en extraer datos de los mercados bursátiles. ¿Cómo puede ayudarme el aprendizaje automático / minería de datos?

Un agente busca una estrategia óptima, interactuando con el medio ambiente. Si el entorno reacciona “amablemente”, la estrategia se refuerza, el agente está “motivado” para repetir las mismas acciones una y otra vez con el objetivo de obtener una mayor recompensa.

Hay dos problemas importantes en esta situación:

Si esta es la mejor estrategia? ¿Debería mantenerlo? (explotación)
¿Vale la pena buscar una mejor estrategia? (exploración)

La compensación entre exploración y explotación es una de las trampas más famosas. Y como la mayoría de las veces todo el proceso de aprendizaje se basa (idealmente) en un problema de optimización no convexo, el agente puede converger fácilmente al mínimo local más cercano, y están literalmente en todas partes.

Por ejemplo, si su agente está deambulando por un laberinto y encuentra un lugar sin monstruos donde se generan los paquetes de salud, podría quedarse aquí para siempre, a pesar de que el objetivo final puede sentarse detrás de la puerta de al lado.

Este no es el mejor ejemplo, las cosas pueden ponerse aún más feas cuando su agente obtiene recompensas negativas constantes; incluso puede caer en un estado similar a la impotencia aprendida: Wikipedia tiene como objetivo minimizar la recompensa negativa. Manejar estos problemas directamente va en contra de la idea del aprendizaje de refuerzo que básicamente dicta que el agente debe aprender cosas sobre el entorno por sí mismo, sin ningún conocimiento previo introducido por su creador.

Para hacer cumplir el proceso de exploración, los investigadores deben encontrar formas más inteligentes de manejar las recompensas entrantes y alentar el uso de nuevas estrategias, de lo contrario, ocurrirá todo tipo de sobreajuste.

En cierto sentido, las computadoras pueden ser aún más complacientes que las personas.

Aprendizaje automáticoAprendizaje por refuerzoAprendizaje profundoInteligencia Artificial

¿Qué se considera estado de arte para la traducción automática neuronal?

Matemática Aplicada: ¿Cuáles son los diferentes métodos para pronosticar datos de series de tiempo?

¿Por qué los tamaños de mini lotes grandes afectan negativamente la precisión de la validación?

Cómo identificar la ubicación de cualquier mensaje de texto usando ML o NLP

¿Qué aplicaciones prácticas ve para ejecutar los modelos TensorFlow en un teléfono inteligente?

¿Cuáles son los trucos de solución de problemas de red MPLS?

RL es un escenario de problema interesante en el que el agente siempre puede salir y recopilar más ejemplos del entorno, y no hay ruido de confrontación. Suponiendo que el agente esté explorando, en el límite de muestras grandes, el sobreajuste no es una gran preocupación. Sin embargo, en la práctica es posible que queramos limitar la recolección de muestras: es costoso y puede ser peligroso para el agente. O algunos dominios pueden ser tan vastos que el agente puede ver un número muy pequeño de muestras de acción de estado después de una exploración. En tales casos, un agente que utiliza un aproximador de función suficientemente complejo puede ajustarse en exceso a las pequeñas cantidades de muestras recolectadas y crear políticas o valores que no se generalizarán a los estados invisibles.

Nikhil Badugu

More Interesting

¿Qué tema es importante para la ingeniería integrada, las redes neuronales o la automoción moderna?

¿En qué se diferencia PyTorch de TensorFlow? ¿Cuáles son las ventajas de usar uno versus el otro? ¿Cuándo debo usar uno u otro?

¿Cómo podemos usar la cadena de Monte Carlo Markov y bayesiano no paramétrico para la reducción de dimensionalidad?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

Para un problema de clasificación (dos clases), ¿es mejor usar dos salidas con softmax o una salida con entropía cruzada binaria?

¿Qué tan difícil es el aprendizaje automático?

¿Qué significa el modelo semántico distribucional (DSM) en el procesamiento del lenguaje natural?

Aprendí algo de teoría de la probabilidad, pero aún me cuesta leer el aprendizaje automático: una perspectiva probabilística. ¿Qué libro de texto de teoría de probabilidad me recomiendan para estudiar el aprendizaje automático?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Se utiliza el álgebra abstracta y el análisis real en el aprendizaje automático? Si es así, ¿cómo se usan?