¿El auto automatizado de Google utiliza refuerzo o aprendizaje supervisado?

Después de buscar en Google tratando de averiguar cuáles son los detalles algorítmicos, concluí: esta información no está disponible.

Así que tratemos de resolverlo con cierta lógica: ¿qué tiene sentido? Después de un poco de investigación, estoy seguro: están combinando todos los enfoques adecuados disponibles en el aprendizaje automático para obtener el mejor modelo. De vuelta a la pregunta:

¿Tiene sentido utilizar el aprendizaje de refuerzo para la conducción automatizada ?

  • Sí, parcialmente: piense en qué situaciones aparecen señales positivas o negativas al conducir un automóvil: semáforos, señales intermitentes de otros vehículos y señales de tráfico en general. Estas señales se pueden usar para entrenar un modelo de refuerzo y decidir las mejores acciones (ajustar la velocidad, dirigir, …) para obtener la máxima recompensa (o minimizar mejor los costos de un choque)

¿Tiene sentido utilizar el aprendizaje supervisado para la conducción automatizada ?

  • De nuevo, si! Lo que Google está usando son enormes cantidades de datos de sensores registrados en tiempo real. Estos datos se pueden usar para entrenar a todo tipo de clasificadores supervisados, por ejemplo, para predecir la lluvia o encender las luces. También puede configurar un modelo para predecir peatones y otros automóviles.

Estaría encantado de recibir sus comentarios y tal vez alguien tenga alguna información privilegiada sobre esto.

Solo alguien que trabaje en el auto sin conductor de Google puede responder esta pregunta concretamente.

Pero luego, Sebastian Thrun, durante esta charla en la Universidad de Alberta en 2012, dijo que no fue con el aprendizaje por refuerzo (he olvidado las palabras exactas) para los vehículos autónomos. Y en la charla no solo mencionó el vehículo autónomo de Google, sino que también habló un poco sobre sus trabajos anteriores en Stanford, es decir, para DARPA 2005 Grand Challenge y DARPA 2007 Urban Challenge.

Así que supongo que RL no es uno de los componentes principales del vehículo autónomo de Google. Pero eso significa que no usaron RL en ninguna parte, difícil de responder ya que supongo que esta información no es pública. Pero ciertamente no es su principal componente de tecnología de navegación. Eso es lo que deduje cuando escuché a Sebastian Thrun. Supongo que con un poco de google, puedes encontrar el enlace a la charla en el sitio web de U Alberta (buena suerte con eso). Además, no recuerdo si dijo eso al principio (como antes de comenzar formalmente su presentación o durante su charla), de modo que esa parte puede o no estar en el video. Estaba hablando con Rich Sutton y otras personas de RL, y fue entonces cuando dijo eso.

En lo que respecta al aprendizaje supervisado, un sí definitivo. No tienes que buscarlo muy profundamente. Si ya conoce el aprendizaje automático y sabe cómo funciona la percepción robótica, sabrá que el aprendizaje supervisado es un componente principal. Además, hay muchos documentos de las personas que formaron el equipo central en Google para este vehículo autónomo, puede ver sus documentos incluso para la planificación del movimiento donde se usa el aprendizaje supervisado, incluso para la planificación del movimiento (usando el aprendizaje de aprendizaje) vea Aprendizaje de aprendizaje para la planificación del movimiento para la navegación en el estacionamiento (creo que ese es el título), donde utilizaron trayectorias expertas (conducidas por un conductor humano) y luego entrenaron el sistema utilizando la optimización convexa para planificar y ejecutar maniobras complejas.

En el curso de introducción de Udacity ML de Sebastian Thrun y compañía, dice que utilizaron el aprendizaje supervisado en Google Car. Pasaron ‘miles de horas’ entrenándolo incluso en el desierto.

Por lo tanto, supervisado en su núcleo, aunque no puedo asegurarme de que no usen algo de aprendizaje de refuerzo también.

El aprendizaje de refuerzo está obteniendo una nueva renovación con redes neuronales profundas (he leído), por lo que tal vez tenga la oportunidad de estar en el núcleo del auto de Google.