Muchos algoritmos de aprendizaje por refuerzo (RL) no tienen una fase explícita “después del entrenamiento”: realizan un aprendizaje de por vida. Para tal algoritmo, cuando encuentran un nuevo estado, simplemente continúan: exploran el nuevo estado, encuentran su recompensa, encuentran la mejor acción, … Algunos algoritmos inteligentes de RL en realidad lo harían mejor: en otros estados, intentarían obtener al nuevo estado desconocido con más frecuencia de lo que indicaría la política óptima actualmente estimada, para permitir una exploración más rápida de lo desconocido.
Si detiene el algoritmo RL y extrae una política, y ahora encuentra un nuevo estado, mucho depende del algoritmo RL y de cómo se representa la política. Si se utiliza cualquier cantidad de aproximación de funciones de otros tipos de generalización, entonces es sencillo: extraer las características del nuevo estado y aplicar las aproximaciones, y encontrar nuestra mejor estimación de la acción óptima.
Si utiliza un enfoque basado en tablas y encuentra un nuevo estado, las cosas se ponen más difíciles. Una simple “solución” sería elegir una acción al azar. Otro podría ser muestrear la acción óptima desde un estado “conocido”. Esto podría ayudar a evitar acciones que rara vez son buenas.
- ¿Pueden las máquinas hacer preguntas inteligentes e interesantes?
- ¿En qué problema debería trabajar (mi amigo y yo tenemos experiencia en aprendizaje automático)?
- Cómo comenzar con redes neuronales en Java
- Si utilizamos todo nuestro conocimiento sobre IA y aprendizaje automático / profundo, ¿podríamos emplearlo para modelar la forma en que funcionan las neuronas humanas?
- Cómo diferenciar entre un programa inteligente y un programa normal en el contexto de la inteligencia artificial
Por supuesto, no hay garantías para nada de esto. Una vez que detenga el proceso de aprendizaje, su política no podrá adaptarse a una situación nueva.