¿Cuáles son los algoritmos más importantes (digamos los 10 principales) para Robot Learning?

Creo que todavía no soy elegible para responder esta pregunta. O tal vez alguien más vinculado a esta área en particular, o alguien que participó en el desafío de la RDC, puede hacerle justicia a esta pregunta tan importante. Así que solo enumeraré las direcciones de investigación y los consejos en las áreas en las que tengo un conocimiento saludable (considerable).

En mi opinión, no existen tales algoritmos superiores, o digamos los 10 principales. Solo hay un buen conjunto de trabajos de investigación en diferentes áreas que tendrá que revisar y comprender. Si analiza claramente este campo, es una combinación de las áreas que incluyen, entre otras:
– aprendizaje automático
– aprendizaje reforzado
– aprendizaje de transferencia (aunque puede incluirlo en el aprendizaje automático o de refuerzo)
– optimización matemática
– planificación de movimiento y trayectoria
– visión por computadora (incluye SLAM)
– controles

Algunos consejos para la robótica + aprendizaje de refuerzo (SMDP)
El campo de la robótica aún no está completamente desarrollado. Se están realizando muchas investigaciones en varios frentes. Una de las áreas agradables es el “aprendizaje de opciones” (un subcampo en el aprendizaje por refuerzo). Allí, un agente aprende a tomar “opciones”, en lugar de tomar acciones primitivas. Vea algunos documentos sobre el marco SMDP. Por ejemplo, si está interesado en “Aprendizaje de habilidades”, “Adquisición autónoma de habilidades”, puede consultar los documentos de George Konidaris, se unió a la Universidad de Duke como profesor asistente el año pasado. Hizo mucho trabajo en esta área durante su doctorado. Supongo que hay varios documentos y no será posible enumerarlos, así que solo vaya a su página web. También es posible que desee leer este documento de Rich: Entre MDP y Semi-MDP: un marco para la abstracción temporal en el aprendizaje por refuerzo.

Punteros a la planificación de movimiento:
En caso de que esté interesado en la planificación del movimiento del robot, desearía examinar RRT y RRT *. Te guste o no, el RRT, si estás investigando en la planificación del movimiento, tendrás que leer estos documentos. El Prof. Maxim Likhachev, del CMU Robotics Institute, tiene algunos documentos muy buenos sobre enfoques de planificación de movimiento basados ​​en redes. También es posible que desee examinar los obstáculos de velocidad y sus versiones modificadas recientes (obstáculos de velocidad recíproca). Mire particularmente [1] y [2]. Si está interesado en los “planificadores en línea” para la navegación en línea de alta velocidad, es posible que desee consultar un documento que el Prof. Zvi Shiller y yo publicamos en 2013 (Evitación de obstáculos en línea a altas velocidades en IJRR). También es posible que desee consultar los documentos de Elon Rimon: este documento: Navegación de alta velocidad de un robot móvil de frenado uniforme utilizando el espacio de configuración de posición-velocidad. Además, es imprescindible que tenga conocimiento de los posibles métodos de campo, si está entrando en el campo de planificación de movimiento: la respuesta de Sanjeev Sharma a la robótica: ¿Cuáles son algunos buenos recursos sobre el método de campo potencial? Lea también los documentos de Khatib sobre los métodos de tiras elásticas. También es posible que desee ver los documentos de Sertac Karaman en el MIT (algunos documentos muy bonitos). También es posible que desee consultar documentos de aproximación establecidos (este planificador se utilizó en el automóvil de CMU para DARPA Urban Challenge), documentos de Ross Knepper. Además, este documento del equipo del MIT Urban Challenge, donde RRT fue modificado para comportarse como métodos locales establecidos: Planificación de movimiento para conducción urbana usando RRT (uno de los documentos más interesantes que leí durante la universidad).

Además, si está entrando en el campo de la investigación de planificación de movimiento, es posible que desee tener algún conocimiento sobre este enfoque antiguo pero popular (aunque tiene algunos inconvenientes): el Espacio Ego-Kinodinámico [3].

Algunos consejos para transferir el aprendizaje:
– Un excelente trabajo en el aprendizaje de transferencia, aplicable a los robots (robots que juegan al fútbol) lea los documentos del profesor Matthew E. Taylor. También desarrolló recientemente un marco y demostró simulaciones mediante pac-man, donde un agente de IA le enseña a otro agente de IA a aprender a jugar. Dicha investigación es muy aplicable a la robótica.

Es posible que desee leer [4] por el profesor Matthew E. Taylor. Es un excelente trabajo.

Algunas instrucciones interesantes como Pavlovian y Predictions Learning:
– También puede consultar este documento de Joseph Modayil y Rich Sutton: página en cs.ualberta.ca. No estoy seguro de cuándo publicará más artículos, ya que la última vez que me encontré, estaba trabajando en algunas cosas realmente geniales (control pavloviano, aprendizaje de predicción). Espero que pronto se presenten algunos documentos muy buenos (o que ya se hayan enviado para su revisión). Su enfoque principal es, ¿cómo representamos nosotros o los robots todo el conocimiento del mundo? ¿Cuál es esa buena representación que permitirá hacer eso? (Si he cometido algún error al explicarlo, estoy seguro de que me perdonará).

Olvidé mencionar esto: el artículo de Peter Stone sobre la Gestión de Intersección Autónoma [5]. Lo olvidé mucho, ya que lo leí hace mucho tiempo durante mi tercer año, pero ese documento mostró algunos resultados prometedores e indicó cómo se puede usar la configuración de múltiples agentes en el futuro para resolver algunos problemas desafiantes (en este caso, manejar una intersección ) cuando, por ejemplo, todos los vehículos son autónomos.

Punteros al aprendizaje del aprendizaje y más investigaciones de IA (comportamiento anticipado, auto sin conductor):
– Para los documentos sobre aprendizaje de barcos de aprendices (¿cómo olvidé mencionar esto?), Eso es aplicable a la planificación del movimiento (el vehículo realmente aprendió de un conductor humano: simplemente olvidé el enlace al video y el título exacto del documento). Pero creo que es “Planificación de movimiento usando el aprendizaje de aprendizaje para la navegación en el estacionamiento” (Pieter Abbeel). También es posible que desee buscar documentos (son numerosos y no puedo precisar en este caso, lo siento) por Jan Peters. Su laboratorio es uno de los mejores laboratorios del mundo para robótica basada en inteligencia artificial. Peiter Abbeel también tiene otro conjunto de excelentes documentos. Además, es posible que desee buscar documentos de Ashutosh Saxena en la Universidad de Cornell. Hubo un muy buen artículo, leí hace mucho tiempo, que describía que el robot aprendió a anticipar el comportamiento / acciones de los humanos y se demostró en el robot PR2 (no puedo recordar el título, pero estoy seguro de que lo encontrará en su sitio web).

Punteros a controles + Optimización + POMDPs + investigación secundaria de RL:
– Para los documentos que están más en el lado de Controles + RL + Optimización + POMDPS, es posible que desee buscar documentos de Jonathan How en el MIT y su ex alumno Alborz Geramifard. Hay otros documentos en los que utilizan algunos métodos de relajación convexa y programación lineal de enteros mixtos, documentos de J. How again y algunos documentos de Lars Blackmore, este artículo: Planificación de ruta robusta y diseño de retroalimentación bajo incertidumbre estocástica (no estoy seguro de que sea aplicable en el mundo real, pero lo mencioné porque lo leí durante mi licenciatura y realmente me pareció interesante, sin mencionar el momento difícil que me dio).

Punteros a SLAM, y algunos investigadores destacados y su investigación:
– También es posible que desee ver los documentos de Wolfram Burgard. Tiene una amplia variedad de intereses (planificación de movimiento, visión, SLAM). Si alguna vez entra en el campo de la planificación del movimiento, en un momento aprenderá sobre el enfoque de la ventana dinámica (documento de D. Fox, W. Burgard y S. Thrun). También tiene algunos de los mejores artículos en el campo de la visión (SLAM, reconstrucción 3D). Es posible que desee ver en su grupo de investigación. S. Thrun no necesita presentación; también revise sus documentos recientes sobre Reverse Optical Flow (aplicación en DARPA Grand Challenges).

No creo haber hecho justicia a esta pregunta tan importante. Eso es lo que podría escribir en este momento . Actualizaré esta respuesta con el tiempo. Gracias Mukunda Madhava Nath por señalar esta excelente pregunta.

———————————-

[1] P. Fiorini y Z. Shiller, “Planificación del movimiento en entornos dinámicos utilizando obstáculos de velocidad”, IJRR, vol. 17, no. 7 de 1998.
[2] D. Wilkie, JVD Berg y D. Manocha, “Obstáculos de velocidad generalizados”, en IROS, 2009.
[3] J. Minguez y L. Montano, “El espacio ego-kinodynamic: Evitación de colisiones para robots móviles de cualquier forma con restricciones cinemáticas y dinámicas”, en IROS, 2003.
[4] ME Taylor y P. Stone. “Transferir el aprendizaje para los dominios de aprendizaje por refuerzo: una encuesta”, en JMLR, 10 (1): 1633-1685, 2009.
[5] K. Dresnet y P. Stone. Un enfoque multiagente para la gestión de intersección autónoma. En Journal of Artificial Intelligence Research , 2008.

PD: No soy un experto en SLAM y controles, por lo que no podría mencionar nada sobre la investigación de controles y no pude señalar algunos de los principales artículos en SLAM.