¿Cómo se puede utilizar el aprendizaje por refuerzo en robótica donde el caso de falla es la destrucción física?

Primero, ejecute simulaciones del robot y su entorno. En caso de falla, simplemente revierta el simulador a las condiciones iniciales.

Use ideas humanas para aprender de fallas catastróficas de simulación. Encuentre límites que no deben excederse, encuentre estrategias para lidiar de manera segura con una catástrofe cercana, y así sucesivamente.

También busque formas de hacer que las pruebas en el mundo real sean menos riesgosas. Por ejemplo, puede comenzar las pruebas del mundo real a una velocidad más lenta o con un entorno controlado, qué aspectos del entorno debe intentar controlar, y así sucesivamente.

Cuando el simulatuon pueda ejecutarse durante un tiempo razonablemente largo, con cantidades razonables de ruido y variación en todos los parámetros críticos en los que pueda pensar, sin alcanzar sus límites o invocar sus soluciones a prueba de fallas, intente en el mundo real, con Las simplificaciones que has encontrado.

Todas las definiciones de “razonable” en el párrafo anterior dependen de su tolerancia al riesgo. Mantenga a los humanos fuera de las pruebas del mundo real hasta que tenga una muy, muy alta confianza de que no estarán disponibles.

Sin la salud humana involucrada, “razonable” es principalmente una cuestión de economía y probabilidades: ¿cuántos ingresos o ahorros puede generar el robot cuando las cosas van bien, cuánto cuesta cuando las cosas van mal y cuáles son las probabilidades?

¿Pasitos de bebé tal vez? por ejemplo, una falla de un helicóptero tripulado con piloto automático sería catastrófica, pero si fuera a aprender gradualmente limitando la altitud a solo unas pocas pulgadas mientras aprende, tal vez unos pocos pies y continúe elevando el límite de altitud a medida que aumenta la confianza. Algo así como animaría a su hijo a desarrollar su confianza.

¿Cuál es la naturaleza específica del robot? (si puedes decir)

Para que el aprendizaje de refuerzo sea aplicable a un robot, debe haber algún tipo de situación negativa, salvo destrucción física, que pueda describirse en términos de valores del sensor.

Por ejemplo, cuando programo un robot usando aprendizaje por refuerzo, el contacto con un sensor táctil es lo que desencadena recompensas negativas. A veces también usaré valores bajos de un sensor de distancia (ya sea IR o sonar).

He escrito un artículo que analiza cómo el algoritmo de aprendizaje por refuerzo Q-Learning se puede aplicar en un robot. Esto proporciona algunos detalles técnicos que pueden serle útiles.

Debería usar un “RL basado en modelos” que permite al sistema “simular” las consecuencias de una secuencia de acciones antes de tomar una acción.

El principal problema aquí es entrenar un modelo preciso del mundo para permitir que el sistema realice esta “simulación”.

La formación de un modelo mundial de este tipo es lo que yo llamo aprendizaje predictivo no supervisado.

Ahí reside el principal obstáculo para el progreso en la IA.

More Interesting

¿Por qué hay toda esta charla sobre IA? Los robots nunca podrán reemplazar a los humanos, y no tienen alma.

¿Cómo sobreajustar el clasificador de aprendizaje automático? ¿Y cuál debo usar?

¿Qué tipo de ciencia y tecnología de datos se requiere para recopilar todo el conocimiento humano en un solo lugar y hacer recomendaciones significativas?

¿Construir robots humanoides es una buena idea para el futuro de nuestra sociedad? ¿Deberíamos fabricar solo robots no humanoides con fines éticos y de paz?

¿Existen aplicaciones comerciales que hayan utilizado algoritmos de visión artificial?

¿Es el algoritmo de aprendizaje cortical de Numenta un tipo de algoritmo de aprendizaje profundo?

¿Cuáles son algunas de las conferencias de Inteligencia Artificial?

Dado el estado actual de AI / ML, ¿cómo afectó las elecciones presidenciales de 2016?

¿Qué tan importante es la teoría en el aprendizaje automático?

¿Cómo es el crecimiento de la robótica industrial?

¿Habría alguna vez computadoras concientes / conscientes?

¿Cómo se aprende a construir máquinas?

¿Por qué las redes neuronales necesitan una función de activación?

Escribí un artículo que mejora la complejidad del tiempo (cúbico a cuadrático en el número de dimensiones de entrada) de una técnica de modelo de mezcla Gaussiana incremental. ¿Qué revista sería apropiada para publicar?

No tengo una sólida formación en matemáticas, ¿qué debo aprender en matemáticas para poder dominar el aprendizaje automático y la inteligencia artificial?