¿El auto automatizado de Google utiliza refuerzo o aprendizaje supervisado?

Después de buscar en Google tratando de averiguar cuáles son los detalles algorítmicos, concluí: esta información no está disponible.

Así que tratemos de resolverlo con cierta lógica: ¿qué tiene sentido? Después de un poco de investigación, estoy seguro: están combinando todos los enfoques adecuados disponibles en el aprendizaje automático para obtener el mejor modelo. De vuelta a la pregunta:

¿Tiene sentido utilizar el aprendizaje de refuerzo para la conducción automatizada ?

Sí, parcialmente: piense en qué situaciones aparecen señales positivas o negativas al conducir un automóvil: semáforos, señales intermitentes de otros vehículos y señales de tráfico en general. Estas señales se pueden usar para entrenar un modelo de refuerzo y decidir las mejores acciones (ajustar la velocidad, dirigir, …) para obtener la máxima recompensa (o minimizar mejor los costos de un choque)

¿Tiene sentido utilizar el aprendizaje supervisado para la conducción automatizada ?

De nuevo, si! Lo que Google está usando son enormes cantidades de datos de sensores registrados en tiempo real. Estos datos se pueden usar para entrenar a todo tipo de clasificadores supervisados, por ejemplo, para predecir la lluvia o encender las luces. También puede configurar un modelo para predecir peatones y otros automóviles.

Estaría encantado de recibir sus comentarios y tal vez alguien tenga alguna información privilegiada sobre esto.

¿Los bots de IA están estafando el póker y los casinos en línea mientras pueden pasar desapercibidos?

¿No dependería la calidad de un robot de IA de la cantidad de código que uno escribe en respuesta a todas las posibilidades / interacciones que enfrentaría?

¿Puedo convertir la foto de alguien en un logotipo (en Photoshop o AI) y usarla como el logotipo de mi empresa?

¿Cuál es la diferencia entre el aprendizaje automático y las redes neuronales?

¿Qué especialización se prefiere para un ingeniero de hardware en Google? ¿VLSI, sistemas embebidos, procesamiento de señales o sistemas de comunicación?

¿Qué es exactamente la inteligencia artificial?

Solo alguien que trabaje en el auto sin conductor de Google puede responder esta pregunta concretamente.

Pero luego, Sebastian Thrun, durante esta charla en la Universidad de Alberta en 2012, dijo que no fue con el aprendizaje por refuerzo (he olvidado las palabras exactas) para los vehículos autónomos. Y en la charla no solo mencionó el vehículo autónomo de Google, sino que también habló un poco sobre sus trabajos anteriores en Stanford, es decir, para DARPA 2005 Grand Challenge y DARPA 2007 Urban Challenge.

Así que supongo que RL no es uno de los componentes principales del vehículo autónomo de Google. Pero eso significa que no usaron RL en ninguna parte, difícil de responder ya que supongo que esta información no es pública. Pero ciertamente no es su principal componente de tecnología de navegación. Eso es lo que deduje cuando escuché a Sebastian Thrun. Supongo que con un poco de google, puedes encontrar el enlace a la charla en el sitio web de U Alberta (buena suerte con eso). Además, no recuerdo si dijo eso al principio (como antes de comenzar formalmente su presentación o durante su charla), de modo que esa parte puede o no estar en el video. Estaba hablando con Rich Sutton y otras personas de RL, y fue entonces cuando dijo eso.

En lo que respecta al aprendizaje supervisado, un sí definitivo. No tienes que buscarlo muy profundamente. Si ya conoce el aprendizaje automático y sabe cómo funciona la percepción robótica, sabrá que el aprendizaje supervisado es un componente principal. Además, hay muchos documentos de las personas que formaron el equipo central en Google para este vehículo autónomo, puede ver sus documentos incluso para la planificación del movimiento donde se usa el aprendizaje supervisado, incluso para la planificación del movimiento (usando el aprendizaje de aprendizaje) vea Aprendizaje de aprendizaje para la planificación del movimiento para la navegación en el estacionamiento (creo que ese es el título), donde utilizaron trayectorias expertas (conducidas por un conductor humano) y luego entrenaron el sistema utilizando la optimización convexa para planificar y ejecutar maniobras complejas.

Sanjeev Sharma

En el curso de introducción de Udacity ML de Sebastian Thrun y compañía, dice que utilizaron el aprendizaje supervisado en Google Car. Pasaron ‘miles de horas’ entrenándolo incluso en el desierto.

Por lo tanto, supervisado en su núcleo, aunque no puedo asegurarme de que no usen algo de aprendizaje de refuerzo también.

El aprendizaje de refuerzo está obteniendo una nueva renovación con redes neuronales profundas (he leído), por lo que tal vez tenga la oportunidad de estar en el núcleo del auto de Google.

Sanjeev Sharma

More Interesting

¿Cuánto tiempo llevará crear una conciencia artificial y cómo se hará?

¿Existe una superposición entre la nanotecnología y la inteligencia artificial / aprendizaje automático?

¿Cuál es un ejemplo de un programa que puede mejorar recursivamente? (Pregunta AI)

¿Qué quiso decir exactamente Elon Musk al decir que la cámara de inteligencia artificial de Google no parece inocente?

¿Cuán relevantes son los temas de la web semántica y la recuperación de información para el aprendizaje automático?

¿Cuál es el mejor libro o recurso para aprender sobre las redes neuronales y las redes neuronales profundas?

¿Cuál es el propósito de tener androides (robots humanos) en el mundo?

Si estoy interesado en el aprendizaje automático y la inteligencia artificial, ¿es mejor postularse a puestos de ingeniero de software o de ciencia de datos?

¿Qué lenguaje de programación debería aprender para la IA que será predominante en el futuro cercano?

¿Alguien está utilizando con éxito las redes neuronales con el fin de crear mercados electrónicos?