Uno de los aspectos más desafiantes de la IA es hacerlo seguro. Seguro como en, espero que Skynet no se apodere del mundo como seguro. A pesar de que estamos lejos de que Skynet se haga cargo, pero para evitar el escenario, tenemos que comenzar a dar pequeños pasos para evitarlo mientras estamos construyendo nuestras IA.
Dicho esto, para enfatizar la importancia del artículo, primero analicemos cómo suelen aprender las IA. Estamos construyendo agentes inteligentes que pueden funcionar en un entorno determinado para proporcionarnos una solución óptima a un problema determinado. Una de las formas de hacerlo es mediante el diseño de agentes basados en objetivos donde un ser humano básicamente establece los objetivos para un problema específico en un entorno determinado. Esto parece funcionar bien para una tarea determinada, pero el problema es que si el ser humano que está estableciendo los objetivos comete algunos errores, el sistema agente / IA puede producir un comportamiento no deseado o potencialmente peligroso. Deepmind observó un ejemplo de este tipo cuando los agentes se volvieron hostiles entre sí mientras competían entre sí.
Entonces, para reducir esa posibilidad, este artículo explora la técnica de RL (aprendizaje por refuerzo) para lograr que el agente deduzca los objetivos de la retroalimentación proporcionada por un evaluador humano. Los investigadores demostraron cómo un sistema aprende a retroceder al obtener hasta 900 bits de retroalimentación de un evaluador. Esto puede sonar tedioso y cuestionable, poner tanto para una tarea simple. Pero hay dos puntos a tener en cuenta. Primero, no es tan fácil especificar tareas que aparentemente son fáciles / triviales. Segundo, no olvidemos que estamos hablando de sistemas inteligentes que en realidad son capaces de aprender por sí mismos. Solo para hacer una analogía, si no le enseñamos a un niño que golpear a alguien es malo, existe una alta probabilidad de que el niño se convierta en una persona muy indeseable (Por favor, perdona mi mala analogía pero espero que ayude a aclararlo) )
- ¿Necesito detener todo y aprender IA? ¿Cuánto tiempo pasará antes de que Robots tome mi trabajo como desarrollador web?
- ¿Cómo implementamos el filtrado o el seguimiento del correo no deseado mediante una red neuronal?
- ¿Por qué el 'Xiaoice' de Microsoft tuvo mucho más éxito que el 'Tay.ai'?
- Inteligencia artificial: ¿Puede una persona inteligente sola crear una IA más inteligente que la humana?
- ¿Qué opinas de la gira planeada de Rahul Gandhi a los Estados Unidos para pronunciar su discurso sobre Inteligencia Artificial?
Al usar esta técnica, el equipo ha logrado dos cosas importantes. En primer lugar, han superado el problema del error humano (a pesar de que la retroalimentación sigue siendo propensa a ello, pero aún es mucho mejor que un ser humano escribiendo objetivos complejos). En segundo lugar, y según yo, el punto más significativo es que no necesitan alinear la retroalimentación con la función normal de recompensa del entorno. Por ejemplo, como se menciona en un blog de OpenAI,
“ Podemos, por ejemplo, entrenar a nuestros agentes para que se mantengan con precisión incluso con otros autos en Enduro en lugar de maximizar la puntuación del juego al pasarlos. ”
Sin embargo, personalmente creo que este enfoque debe ser probado en un entorno competitivo de múltiples agentes para ver si los agentes cooperan o muestran la misma agresión. Dadas las premisas, puedo especular que podemos esperar un resultado positivo pero nunca lo sabemos. Además, los objetivos inferidos pueden parecer seguros para el entorno específico hasta que nos topamos con un escenario específico en el que exponemos un comportamiento no deseado en la etapa posterior. Siempre habrá posibilidades asociadas con la IA, y solo podemos esforzarnos por mejorarla. Este documento es un gran impulso en la dirección correcta para lograr el objetivo de crear sistemas de IA seguros que ahora quieran apoderarse del mundo cada vez que se ven en una película de Hollywood.
EDITAR: Como señaló acertadamente Tom Musgrove, el documento trataba más sobre destacar la mayor eficiencia mediante el uso del método RL incluso sin mucho esfuerzo / retroalimentación humana. Sin embargo, creo que la seguridad también es un aspecto importante que se puede inferir del documento.