¿Cuáles son algunos de los aspectos aterradores de la IA?

“Asustadizo” puede no ser la palabra apropiada para esta situación, pero en IA, la función de recompensa es algo a lo que debemos asegurarnos de prestar mucha atención al desarrollar estos sistemas en el mundo real.

Una de las áreas más prometedoras de la investigación de IA es el aprendizaje por refuerzo. Uno de los principios centrales en el aprendizaje por refuerzo es hacer que el agente actúe en un entorno y aprenda a través de estas acciones. La forma en que el agente aprende es a través de la noción de una función de recompensa, que proporciona comentarios positivos para las buenas acciones y comentarios negativos para las acciones que se consideran subóptimas. En muchos de estos modelos de psicología del comportamiento, por ejemplo, un niño toca una estufa caliente, se quema y aprende de inmediato que es una mala idea.

Ahora, parte de este campo que es realmente complicado es diseñar funciones de recompensa. Uno de los ejemplos canónicos utilizados en la comunidad de IA es el ejemplo de la aspiradora. [1] Aquí, intentamos diseñar una función de recompensa para una IA que modele una aspiradora. Una función de recompensa intuitiva es diseñar la función de recompensa de manera que sea proporcional a la cantidad de polvo que recoge.

La idea aquí es que cuanto más polvo acumule la IA, mejor. ¿Qué podría salir mal con este modelo?

Sin embargo, resulta que la acción óptima para esta IA es recoger el polvo, escupirlo, recogerlo, etc. Como resultado, ¡en realidad no termina limpiando en absoluto!

Esta idea demuestra que estas funciones de recompensa pueden tener consecuencias no deseadas y, como alguien que diseña estas funciones, debemos ser capaces de pensar en estas consecuencias en una variedad de situaciones. Esta no es una tarea pequeña, especialmente porque en el mundo real, es imposible simular todos los entornos posibles. Bien podría haber un entorno en el que la IA tome medidas que no habíamos esperado.

El término para esta preocupación en la comunidad de IA se llama “pirateo de recompensas” [2] [3] y le animo a que lea más al respecto.

Notas al pie

[1] Inteligencia artificial: un enfoque moderno

[2] Problemas concretos de seguridad de la IA

[3] [1606.06565] Problemas concretos en la seguridad de la IA