¿Pueden los algoritmos de aprendizaje de refuerzo actuales elegir múltiples acciones dado el estado actual?

No sería difícil modificar ningún algoritmo existente para hacer esto. En lugar de elegir la acción que maximiza la función Q estimada, elija un conjunto. Agregue exploración si lo desea, o muestree de una política estocástica.

El problema con esta línea de pensamiento es: ¿qué significa seleccionar múltiples acciones? Cuando me pides instrucciones y te digo que simultáneamente gires a la izquierda y a la derecha, ¿cómo interpretarías esto?

En algunos entornos, hay varios subconjuntos del conjunto de acciones que se pueden ejecutar simultáneamente. Por ejemplo, para un robot de exploración simple, puede decirle que avance 1 metro mientras gira su cámara 90 grados en el sentido de las agujas del reloj. En lugar de ver esto como 2 acciones realizadas al mismo tiempo, conceptualmente es más fácil pensar en esto como 1 meta-acción. El conjunto de meta-acciones es un subconjunto del conjunto de poder del conjunto de acciones real, que consta de todos los conjuntos de acciones que se pueden realizar al mismo tiempo. Normalmente, este conjunto es mucho más grande que el conjunto de acciones original, por lo que sería mejor utilizar un algoritmo que tenga esto en cuenta. Busque “acciones factorizadas” para encontrar investigaciones existentes sobre esto. Por ejemplo, http://www.jmlr.org/papers/volum… es uno de los documentos más citados sobre este tema.

More Interesting

En Python, dada la siguiente permutación de a, b, c, d, e, f, g, h, i, j, ¿cuál es la próxima permutación en el orden lexicográfico (diccionario)?

¿Qué otro género o sabores de la música se pueden programar algorítmicamente aparte de la música clásica?

¿Cómo ordenar una matriz de enteros proporcionados como una cadena como entrada desde la línea de comandos, usando lenguaje C?

¿Debería un algoritmo de aprendizaje automático estar completo?

¿Qué algoritmo siguen las historias de Instagram para mostrar a los espectadores?

Cómo implementar consultas mínimas de rango bidimensional con una complejidad de O (1) por consulta

¿Cuál es la diferencia entre los siguientes dos fragmentos de código?

¿Cómo atravesar una matriz desde una posición dada vertical u horizontal o diagonalmente para encontrar un elemento en C ++? ¿Podría proporcionar un código de muestra?

Cómo hacer un algoritmo de filtrado basado en contenido de Python

¿Por qué el introsort se convierte de quicksort a heapsort después de cierta profundidad?

¿Es la incapacidad de implementar estructuras de datos básicas como una lista doblemente enlazada, un árbol con punteros primarios usando un código seguro la mayor debilidad de Rust?

¿Cuáles son los algoritmos propuestos para la detección de revisiones falsas en el análisis de sentimientos?

¿Cómo se crean los algoritmos y para qué se utilizan?

¿Cómo puedo diseñar una función hash que elija aleatoriamente 16 bits de un número de 32 bits?

Si saco el bucle for más interno de un bucle for anidado y lo ejecuto solo, ¿cambiará la complejidad del tiempo?