Después de buscar en Google tratando de averiguar cuáles son los detalles algorítmicos, concluí: esta información no está disponible.
Así que tratemos de resolverlo con cierta lógica: ¿qué tiene sentido? Después de un poco de investigación, estoy seguro: están combinando todos los enfoques adecuados disponibles en el aprendizaje automático para obtener el mejor modelo. De vuelta a la pregunta:
¿Tiene sentido utilizar el aprendizaje de refuerzo para la conducción automatizada ?
- ¿Los límites de tiempo más largos favorecen a los humanos o las computadoras en una partida Go?
- ¿Son los robots el futuro del cuidado de los ancianos?
- ¿Cómo podemos hacer un robot que sea verdaderamente artificialmente inteligente?
- ¿Cómo se usa el aprendizaje automático en los centros de datos?
- ¿Una distribución de red neuronal en el espacio físico tiene alguna ventaja de procesamiento?
- Sí, parcialmente: piense en qué situaciones aparecen señales positivas o negativas al conducir un automóvil: semáforos, señales intermitentes de otros vehículos y señales de tráfico en general. Estas señales se pueden usar para entrenar un modelo de refuerzo y decidir las mejores acciones (ajustar la velocidad, dirigir, …) para obtener la máxima recompensa (o minimizar mejor los costos de un choque)
¿Tiene sentido utilizar el aprendizaje supervisado para la conducción automatizada ?
- De nuevo, si! Lo que Google está usando son enormes cantidades de datos de sensores registrados en tiempo real. Estos datos se pueden usar para entrenar a todo tipo de clasificadores supervisados, por ejemplo, para predecir la lluvia o encender las luces. También puede configurar un modelo para predecir peatones y otros automóviles.
Estaría encantado de recibir sus comentarios y tal vez alguien tenga alguna información privilegiada sobre esto.