El tipo de algoritmo de ML que debe usar no depende tanto de su problema como de su conjunto de datos.
El aprendizaje de refuerzo es principalmente útil cuando no tiene un conjunto de aprendizaje supervisado pero tiene una señal de refuerzo. Es decir, cuando no tiene un conjunto de entrenamiento con las “respuestas correctas” (“cuando los datos son X, el sistema debe responder Y”), sino que tiene una retroalimentación (eventualmente retrasada) sobre la calidad de algunas respuestas (” los datos eran X, el sistema respondió Y, y eso era malo (pero no te diré cuál habría sido la buena respuesta) “). No sé cómo se puede aplicar eso a la elección de rutas aéreas, pero si de alguna manera su conjunto de datos es así, es posible que desee considerar RL, sí. De lo contrario, como señala el comentarista, algunos algoritmos clásicos de aprendizaje supervisado probablemente funcionen mejor.
- ¿Por qué es difícil entrenar un modelo de aprendizaje automático de forma incremental, en tiempo real?
- En un problema de optimización no convexo, ¿es posible determinar si dos puntos pertenecen al mismo valle o no?
- Cómo crear un conjunto de datos a partir de imágenes
- ¿Cuáles son las cosas más difíciles o problemáticas para los ingenieros de Machine Learning / Deep Learning?
- ¿Por qué un algoritmo evolutivo es un método inapropiado para usar cuando se busca una clave para descifrar un mensaje codificado cuando solo hay una respuesta correcta?