Si te entiendo, te preguntas por qué el rendimiento de una política aprendida se mide experimentalmente con épsilon codicioso en lugar de codicioso.
La respuesta corta es a menudo veces no lo es; muchas veces el rendimiento se mide con avaricia. Pero hay razones por las que es posible que aún desee evaluar el rendimiento con una política codiciosa de epsilon. Lo que me viene a la mente de inmediato es que si el aprendizaje aún no ha convergido, es completamente posible que la política codiciosa sea catastróficamente mala en formas muy sutiles que hacen que el agente parezca mucho peor de lo que es. Por ejemplo, considere un mundo de cuadrícula donde las estimaciones de Q actuales del agente están en todas partes, excepto en un estado en el que le dice que camine hacia una pared que vuelve al mismo estado. Si el agente alcanza este estado, se quedará estancado para siempre y su rendimiento general parecerá terrible, a pesar de que el aprendizaje en todas partes del mundo convergió. Al mantener una política de exploración como épsilon codicioso, le permite al agente “caer” aleatoriamente de este tipo de bucles de desestimación leve y no hacer que dominen la medida del rendimiento general.
Por supuesto, hay otras formas de evitarlo si puede controlar el medio ambiente (como probar la política desde un conjunto de estados), pero mantener el épsilon codicioso es un enfoque sencillo.
- ¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados (es decir, conciertos)?
- ¿Qué matemática debería revisar / aprender si quiero comprender a fondo el modelado de efectos mixtos / modelado de regresión?
- ¿Cuál es el uso de una capa de disminución de resolución en una red neuronal convolucional (CNN)?
- ¿Cuántos idiomas hay para las redes neuronales?
- ¿Las imágenes captcha perderían su importancia si las técnicas de procesamiento de imágenes pudieran reconocer a los personajes automáticamente?