¿Puedo usar el aprendizaje por refuerzo para ayudar a las personas a elegir la ruta más barata cuando viajan en avión?

El tipo de algoritmo de ML que debe usar no depende tanto de su problema como de su conjunto de datos.

El aprendizaje de refuerzo es principalmente útil cuando no tiene un conjunto de aprendizaje supervisado pero tiene una señal de refuerzo. Es decir, cuando no tiene un conjunto de entrenamiento con las “respuestas correctas” (“cuando los datos son X, el sistema debe responder Y”), sino que tiene una retroalimentación (eventualmente retrasada) sobre la calidad de algunas respuestas (” los datos eran X, el sistema respondió Y, y eso era malo (pero no te diré cuál habría sido la buena respuesta) “). No sé cómo se puede aplicar eso a la elección de rutas aéreas, pero si de alguna manera su conjunto de datos es así, es posible que desee considerar RL, sí. De lo contrario, como señala el comentarista, algunos algoritmos clásicos de aprendizaje supervisado probablemente funcionen mejor.

RL es útil cuando tiene acceso a un simulador del problema. Lo que en su caso significa que puede simular múltiples viajes con diferentes rutas.

Por ejemplo, podría ejecutar un bot eligiendo diferentes alternativas de ruta. La señal de recompensa sería el precio. De esta forma, por prueba y error, su agente podría predecir la ruta más barata.

Si solo considera aeropuertos y saltos, y el gráfico no es demasiado grande, entonces podría abordar el problema como un agente que opera en un estado discreto y en un mundo de acciones discretas.

Sin embargo, es posible que también desee utilizar otra información disponible, como fechas de temporada (como verano, Acción de Gracias o vacaciones de Navidad), compañía aérea, etc. En este caso, es posible que desee utilizar funciones (en lugar de estados) y estimar su función de valor como una aproximación (paramétrica) de las características.