¿Qué pasa si hay un nuevo estado después de haber recibido capacitación en aprendizaje de refuerzo?

Muchos algoritmos de aprendizaje por refuerzo (RL) no tienen una fase explícita “después del entrenamiento”: realizan un aprendizaje de por vida. Para tal algoritmo, cuando encuentran un nuevo estado, simplemente continúan: exploran el nuevo estado, encuentran su recompensa, encuentran la mejor acción, … Algunos algoritmos inteligentes de RL en realidad lo harían mejor: en otros estados, intentarían obtener al nuevo estado desconocido con más frecuencia de lo que indicaría la política óptima actualmente estimada, para permitir una exploración más rápida de lo desconocido.

Si detiene el algoritmo RL y extrae una política, y ahora encuentra un nuevo estado, mucho depende del algoritmo RL y de cómo se representa la política. Si se utiliza cualquier cantidad de aproximación de funciones de otros tipos de generalización, entonces es sencillo: extraer las características del nuevo estado y aplicar las aproximaciones, y encontrar nuestra mejor estimación de la acción óptima.

Si utiliza un enfoque basado en tablas y encuentra un nuevo estado, las cosas se ponen más difíciles. Una simple “solución” sería elegir una acción al azar. Otro podría ser muestrear la acción óptima desde un estado “conocido”. Esto podría ayudar a evitar acciones que rara vez son buenas.

Por supuesto, no hay garantías para nada de esto. Una vez que detenga el proceso de aprendizaje, su política no podrá adaptarse a una situación nueva.

Gracias por la A2A Mac (por cierto, tienes un nombre genial).

La respuesta de Robby Goetschalckx lo cubre bastante bien, no estoy seguro de si hay algo más importante que pueda agregarle.

Supongo que solo comentaría otras dos cosas:

  1. En las aproximaciones basadas en tablas, puede encontrar el estado conocido más cercano del nuevo estado utilizando una métrica de distancia como la similitud del coseno. Se ha demostrado que esto funciona bastante bien en algoritmos GP-Sarsa RL.
  2. Las únicas situaciones en las que puedo pensar donde el advenimiento de nuevos estados es un problema significativo son las configuraciones de aprendizaje en línea. En tales entornos, los métodos dentro de la política (donde el agente sigue la política de su aprendizaje) tiende a lidiar con los cambios en los entornos estatales mejor que los métodos fuera de la política (el agente no sigue la política de su aprendizaje).

More Interesting

¿Alguien ha pensado en poner aire en ascensores?

Mark Zuckerberg de Facebook es un ávido defensor del ingreso básico universal (UBI) ya que la IA pronto reemplazará a la mayoría de los trabajadores (incluso los médicos). A partir de ahí, ¿nos volveremos más pobres?

¿Se podría detectar la evolución en una inteligencia artificial?

¿Los hackers malignos utilizan el aprendizaje automático para actividades de piratería criminal?

Si es posible crear vida artificial dentro de una computadora, ¿es posible crear vida artificial dentro de la imaginación?

¿Aprender las redes de una máquina virtual le brinda todas las habilidades necesarias necesarias en el campo de las redes?

¿Cuál es el% de posibilidades de que ya estemos bajo el control de una IA fuerte?

¿Qué debe hacer un gerente / líder de control de calidad exitoso para ayudar a una startup? haciendo aprendizaje automático, aprendizaje profundo, big data, ubicando o residiendo en diferentes lugares?

¿Cómo se pueden visualizar las características extraídas en capas ocultas de una red neuronal?

¿Cómo Google Deep Mind aprende de sí mismo?

¿Cómo sería una prueba de fallas para una IA de computadora?

¿Qué tipo de garantías de equidad se podrían hacer para un juego tipo Tetris?

Inteligencia artificial: ¿Puede una persona inteligente sola crear una IA más inteligente que la humana?

¿Cuál es la diferencia entre AI y Machine Learning Nanodegrees en Udacity?

Cómo explicar la "extracción de información" en términos simples