¿La conducción autónoma es un aprendizaje de refuerzo?

Depende de qué escenario estás hablando. Sin embargo, la respuesta directa es no. Permítanme comenzar con pequeños ejemplos:

Si se trata solo de conducir de forma autónoma en una carretera libre, entonces es solo un controlador proporcional con puntos de referencia a continuación.

Si va a estar en un entorno conocido, entonces un algoritmo de planificación de ruta convencional con un mapa del entorno debería ser suficiente con un controlador proporcional / LQR.

Si hablamos de conducción autónoma en un entorno con obstáculos dinámicos (como en la terminal del aeropuerto donde el tráfico está bastante organizado), en este caso también podemos usar LQR. Esto debería ser suficiente siempre que la función de costo sea lo suficientemente buena.

El verdadero desafío es el entorno dinámico donde todo se mueve sin ningún sentido (no se puede suponer ningún modelo). Allí tampoco diremos que el aprendizaje por refuerzo se debe utilizar, sino que se puede aplicar un control óptimo. Sin embargo, esta sigue siendo una pregunta abierta.

De todos modos, permítanme llegar a la pregunta principal de si necesita ser aprendizaje de refuerzo, entonces es un NO directo. La conducción autónoma no es solo aprendizaje de refuerzo, sino que consta de múltiples módulos como el módulo de percepción para obtener información sobre el entorno utilizando múltiples sensores. El segundo módulo está planificando dónde, usando la información de percepción, el vehículo hace un plan y el más importante es el módulo controlador que ayuda al vehículo a decidir la próxima acción.

Podemos decir que el aprendizaje por refuerzo es una combinación de planificación y controlador que encontrará una acción ÓPTIMA (no en el controlador convencional) sobre el espacio de estado dado. Podemos aprovechar la acción óptima en el aprendizaje por refuerzo, pero es computacionalmente expansivo. Esto se debe a que los sistemas de aprendizaje profundo pueden razonar o encontrar una acción óptima en un espacio de estado exponencial.

Por ejemplo: lea esto y esto sobre el aprendizaje profundo de Q y cómo los juegos simples han alcanzado la precisión a nivel humano.

Este blog da una explicación bastante buena de cómo el aprendizaje profundo hizo un gran cambio en la IA.

El aprendizaje por refuerzo es una tecnología y la conducción autónoma es una aplicación. Sin embargo, esta aplicación se puede lograr utilizando diferentes tecnologías.

El aprendizaje supervisado o el aprendizaje de refuerzo ayudarán a lograr una conducción autónoma.

Caso 1: donde registra los datos de un conductor e intenta imitar lo mismo (aprendizaje supervisado)

Caso 2: Dejas que el sistema aprenda por sí mismo cómo tomar la decisión (Inclinación de refuerzo)

En ambos casos, el modelo aprenderá a tomar mejores decisiones.

Sí, creo que puedes justificarlo. El problema de ver la conducción automatizada como un problema directo de aprendizaje profundo es que el aprendizaje supervisado es bastante difícil de llevar a cabo en situaciones de conducción. RL no está supervisado una vez que haya seleccionado las funciones relevantes. También hay una buena cantidad de secuencia de actividad involucrada. Aquí está https://arxiv.org/pdf/1704.02532 … un artículo reciente que discute esto.