No sería difícil modificar ningún algoritmo existente para hacer esto. En lugar de elegir la acción que maximiza la función Q estimada, elija un conjunto. Agregue exploración si lo desea, o muestree de una política estocástica.
El problema con esta línea de pensamiento es: ¿qué significa seleccionar múltiples acciones? Cuando me pides instrucciones y te digo que simultáneamente gires a la izquierda y a la derecha, ¿cómo interpretarías esto?
En algunos entornos, hay varios subconjuntos del conjunto de acciones que se pueden ejecutar simultáneamente. Por ejemplo, para un robot de exploración simple, puede decirle que avance 1 metro mientras gira su cámara 90 grados en el sentido de las agujas del reloj. En lugar de ver esto como 2 acciones realizadas al mismo tiempo, conceptualmente es más fácil pensar en esto como 1 meta-acción. El conjunto de meta-acciones es un subconjunto del conjunto de poder del conjunto de acciones real, que consta de todos los conjuntos de acciones que se pueden realizar al mismo tiempo. Normalmente, este conjunto es mucho más grande que el conjunto de acciones original, por lo que sería mejor utilizar un algoritmo que tenga esto en cuenta. Busque “acciones factorizadas” para encontrar investigaciones existentes sobre esto. Por ejemplo, http://www.jmlr.org/papers/volum… es uno de los documentos más citados sobre este tema.
- ¿Qué algoritmos se usan para calcular logaritmos?
- ¿Qué estructuras de datos usa MS Word para almacenar elementos del documento en la memoria?
- ¿Hay números irracionales de distribución uniforme no repetitivos para los cuales el dígito n puede calcularse en O (1) tiempo?
- ¿Cuánto trabaja un analista de datos / científico de datos en un día? ¿Cuánto tiempo tienes para estudiar nuevos algoritmos y técnicas?
- ¿Cuáles son los algoritmos para determinar si un punto está dentro de una forma cerrada arbitraria o no?