En inteligencia artificial, ¿cuál es mejor, políticas o planes, y por qué?

He sido A2A y estoy realmente involucrado en algunos de sus aspectos mientras trabajo en la planificación y ejecución situadas. También puedo proporcionar el descargo de responsabilidad de que mi trabajo se enfoca en la planificación in situ y la re-planificación utilizando planes lineales en lugar de políticas, de esa manera usted es consciente de mis posibles sesgos.

Para las personas que no conocen la diferencia entre un plan (lineal) y una política, puede resumirse de la siguiente manera. Un plan será una secuencia estrictamente definida de acciones que conducen desde el estado inicial a la meta (bueno, puede ser más complejo que eso si tiene concurrencia, pero esta sigue siendo la idea básica); Una política, por otro lado, se definirá por un conjunto de pares “estado -> acción” que debería permitir que cualquier estado alcanzable finalmente logre el objetivo dado.

Como resultado, un plan es un conjunto predeterminado de acciones que deben seguirse por la carta hasta que lleguemos a su fin o algo salga mal (en cuyo caso debe volver a planificar), la política es una especie de representación de todos los planes posibles en el medio para alcanzar este mismo objetivo, por lo tanto, no es necesario volver a planificar, ya que un fracaso probablemente solo lo lleve a un estado para el que ya tiene el siguiente par “estado -> acción” como una forma de alcanzar su objetivo.

Si se presenta así, probablemente empiece a pensar que “las políticas de pozo son mucho más poderosas” y sería cierto en muchos niveles. Cuando se encuentra, una política solo le proporciona una estrategia para alcanzar su objetivo sin importar qué, y aún mejor, una política ideal también le permitirá evitar terminar en un estado sin salida cuando sea posible o al menos el generador de políticas debería ser capaz de advertirle que hay una posible secuencia de eventos que lo llevarían a un callejón sin salida donde su objetivo es imposible de alcanzar (o para una planificación estocástica, al menos, decida siempre tomar la acción que minimice la posibilidad de llegar a tal situación) . Los planes lineales tienden a ser “optimistas” sobre el resultado de la acción (es decir, suponen que el resultado es determinista) y, por esta razón, no pueden anticipar que una situación inesperada puede conducir a un callejón sin salida y esto, incluso con toda la planificación posterior. Quisiera

Sin embargo, el núcleo del problema aquí es “cuando se encuentra”; la planificación es un problema muy complejo que varía desde NP-difícil hasta indecidible en términos de complejidad y aquí solo estoy hablando de la forma clásica de los planes lineales. Una política que es “todo el plan” puede imaginarse rápidamente que encontrar esta política probablemente no será más fácil que encontrar solo una secuencia en el mismo espacio de estado. Muchas políticas de generación son polinómicas en relación con el tamaño del espacio de estado, pero el tamaño del espacio de estado crece exponencialmente con el número de variables de estado que a menudo lo limita a un modelo muy pequeño / abstracto del mundo. E incluso con un modelo relativamente pequeño, encontrar esta política de manera completa lleva tiempo suficiente como para prohibir que esto se haga en línea: refinar una política de forma iterativa como se hace en el aprendizaje de refuerzo es algo que es más manejable, aunque probablemente ya sepa .

Ninguno de los dos es mejor o peor que el otro y son más adecuados para diferentes situaciones. 4 informaciones entran en juego:

  1. ¿Sabes cuáles son tus objetivos a priori?
  2. ¿conoce su estado inicial (o estado actual) a priori?
  3. ¿Sus acciones tienen múltiples resultados y qué tan importante es manejarlos a priori?
  4. ¿están limitados su tiempo y / o procesamiento para encontrar su solución?

Otro que se relaciona ligeramente con 3. es la necesidad de legibilidad inicial de su plan frente a la política. Una secuencia de acciones es mucho más fácil de leer para los humanos que una tabla con mucho “estado -> acción”. Una buena ilustración es la elección realizada en los Mars Exploration Rovers con Mapgen. Mapgen se utiliza en la tierra para generar el plan de los rovers. Los rovers no planean in situ. En cambio, se genera un plan a través de la imitación mixta con el aporte de los científicos e ingenieros (utilizando el planificador Europa). Después de la validación, este plan se envía al vehículo y se ejecuta. El plan no es una estrategia y es lineal, ya que es más fácil de interpretar, si falla, el vehículo detiene su ejecución y se “desperdicia” un día, pero es una compensación justa obtener un comportamiento más predecible (el científico sabe exactamente qué se supone que debe hacer el rover en un día determinado).

Si conoce sus objetivos a priori pero no sabe dónde comenzará o cómo evolucionarían las acciones y aún así quiere “planificar” para ello solo una vez. Entonces, la generación de políticas es probablemente el camino a seguir. Generas tu política, la pones en el vehículo y el vehículo, entonces solo necesitas ejecutarla y potencialmente hacer un ligero refinamiento a medida que avanza (estos refinamientos no cambian la estructura de la estrategia, pero hacen alteraciones más sutiles, como equilibrar algunos pesos, …).

Si conoce ambos objetivos, el estado inicial y considera que su acción puede considerarse como determinista (por ejemplo, su falla es muy rara o el costo de la falla no es importante), entonces un plan lineal le proporcionará una solución más rápida y usted puede use esto para trabajar en detalle sobre cómo encontrar la “mejor” solución dada la optimización de una función de utilidad dada (por ejemplo, reducir el uso de la batería).

Si no conoce los objetivos que debe cumplir a priori y solo sabe que las personas le pedirán a su sistema que haga cosas diferentes como mejor le parezca, entonces se encuentra en un problema muy diferente. Como mencioné, la planificación es una tarea compleja y la generación de políticas solo está impulsando esta complejidad aún más. Esta es la razón por la que hasta ahora la mayor parte del trabajo de planificación situada se basa en: “producir un plan lineal”, “verificar en la ejecución”, “volver a planificar si algo salió mal o si el objetivo cambió”. De esa manera, el agente puede reevaluar su plan cuando lo considere adecuado en su propia agenda. Y para hacerlo, ya que el agente es a menudo un robot con tiempo y recursos limitados, necesita poder producir el nuevo plan lo más rápido posible. La generación de políticas sería demasiado cerrada ya que requeriría regenerar una nueva política cada vez que cambie el objetivo establecido; Por otro lado, el plan lineal, especialmente cuando se obtiene un enfoque genérico y se usa, por ejemplo, HTN que brinda mejor información sobre la estructura del plan (a costa de un modelado más complejo), se puede hacer lo suficientemente eficiente como para cerrar el ciclo de una manera razonable. hora. Sigue siendo un plan de alto nivel que el ejecutivo refina y, a menudo, las personas no intentan optimizar el plan y están contentas con la primera solución que sale, pero todo esto se puede hacer en un tiempo relativamente corto. dispositivos informáticos muy modestos. Al hacerlo, el vehículo puede reevaluar su plan siempre que las cosas salgan mal sin la necesidad de una intervención externa (lo que también significa que es más difícil predecir lo que sucederá, incluso si un objetivo se cumpliría o no, ya que se puede rechazar en cualquier momento) y puede funcionar siempre que no haya una situación de callejón sin salida o que el modelo esté hecho de tal manera que se eviten esos callejones sin salida (esta es una parte difícil pero también rara vez he visto una situación de callejón sin salida en el nivel de abstracción que son estos sistemas).

Como puede ver, todo lo anterior es más o menos una compensación entre lo que sabe a priori y / o considera que puede ignorarse. Todas son tareas muy complejas que proporcionan una solución relativamente lenta con un rápido crecimiento de complejidad con el nivel de detalle del dominio. Como el objetivo de “planificación de IA” es generar un plan / estrategia, esta complejidad es una preocupación. La preocupación se debe a la necesidad de proporcionar una solución en un tiempo razonable o más para proporcionar la solución óptima que luego implique una mayor búsqueda y más complejidad. Por lo tanto, el formato de un plan lineal presenta la ventaja de dar una solución relativamente rápida para dominios relativamente complejos. Por otro lado, la generación de políticas es muy exigente, aunque la solución debería ser más flexible al final. Aún así, es difícil de justificar a menos que sepa que el resultado de su acción fallará con frecuencia o que una falla podría llevarlo a una situación muy mala.

Para el aprendizaje de refuerzo, hay 2 aspectos que hacen que el aprendizaje de políticas sea más frecuente: 1) conoce su objetivo; de hecho, su objetivo es la función de utilidad que dirigirá su aprendizaje, 2) sabe que las acciones “fallarán” en cierto sentido por diseño ya que el aprendizaje no ocurriría sin fallar, 3) usted no sabe en qué estado estará inicialmente. En cierto sentido, trata de aprender por su cuenta el efecto de sus acciones (o al menos cómo estos efectos contribuyen a su objetivo), lo que por sí solo es una diferencia fundamental de la planificación donde se conoce el efecto de la acción, determinista o no, y El propósito es buscar cómo conectar estas acciones para lograr su objetivo. En cierto sentido, el propósito del aprendizaje de refuerzo es refinar más su política a medida que refina su modelo, lo que significa que su búsqueda se realiza a través de la ejecución, por lo tanto, su costo se tiene en cuenta en la “fase de aprendizaje”, la planificación, por otro lado, se realiza antes de la ejecución (incluso cuando se realiza in situ, en realidad es una fuerte suposición de simplificación requerida para la capacidad de decisión), lo que significa que cualquier tiempo dedicado a buscar la solución es tiempo sin hacer nada. Eso explica por qué percibes este contraste entre la planificación y tu comunidad.