¿Es más difícil transmitir la moral de la humanidad a un AGI (inteligencia general artificial) que inventar el propio AGI?

Incluso dentro de una cultura determinada, las personas tienen ideas muy diferentes sobre lo que es “ético” o “moral”. De hecho, incluso un individuo específico es probable que se comporte de manera diferente en diferentes circunstancias. En general, las personas se comportan mejor cara a cara y concretamente que a distancia y de manera abstracta. Dan Ariely, entre otros, ha realizado algunas investigaciones conductuales en este sentido. Considere un acertijo recientemente popular para “autos sin conductor”. El automóvil está conduciendo por una carretera estrecha a través de una ciudad llena de gente. A la derecha hay una gran multitud y a la izquierda una gran caída. De repente, tres niños salen corriendo de la multitud justo en frente del auto. ¿Qué harías? Atropellar a los tres niños? O bien, ¿giró bruscamente y dejó el coche cayendo por el precipicio y probablemente matándolo pero salvando a los tres extraños? Mi instinto sería dirigir el auto por el precipicio. Realmente no puedo verme chocando con tres niños pequeños. Pero supongamos que, en cambio, está programando un automóvil sin conductor. Su jefe le dice que la vida de la persona que compra el vehículo es de suma importancia. Él le dice que no se preocupe porque el conductor siempre puede anular la programación y, de todos modos, es poco probable que surja la situación. En este caso, es muy probable que la mayoría de las personas continúen y programen el auto para chocar contra los tres niños. Después de todo, siempre puedes decirte a ti mismo que no es tu culpa que los niños estén muertos. El auto no debería haber ido tan rápido. El conductor tuvo la oportunidad de anular la programación, pero no lo hizo. Si no lo hubiera programado de esa manera, habría perdido su trabajo y alguien más lo habría hecho de todos modos. Etc. En situaciones abstractas, es fácil culpar a alguien más.

Algunos han sugerido por esta razón que los códigos nucleares para lanzar misiles estadounidenses no deberían estar en un maletín sino incrustados en el corazón de un asistente presidencial. Antes de que él / ella pueda lanzar los misiles, deben tomar la información del ayudante para matarlos en persona. Solo entonces se pueden lanzar los misiles. Esto hace que la decisión sea muy personal e inmediata. En estas circunstancias, al menos a la mayoría de las personas se les impediría hacerlo solo por despecho o para vengar un desaire imaginado.

Exploro algunos de estos temas en mi blog sobre HCI / AI, así como en el libro Turing’s Nightmares. petersironwood

http://tinyurl.com/hz6dg2d

Uno de los problemas es que no sabemos si es necesario para realizar una ‘Inteligencia Artificial General’, que tiene un sentido moral. Lo que quiero decir en este contexto es que es muy posible que la moralidad sea esencialmente una consecuencia esencial, un subproducto si se quiere, de una inteligencia lo suficientemente general como para ser “humana”. De hecho, lo que incluso constituye inteligencia general no está claro; tenemos la prueba de Turing, por supuesto, pero ahora se entiende que una visión humanocéntrica de la inteligencia general es limitada por razones obvias. Usamos palabras muy generalmente, no suelen estar rigurosamente definidas, y lo que entendemos por inteligencia no tiene una definición precisa.

Tampoco es necesariamente el caso de que la moralidad deba “codificarse” en forma de algún tipo de infraestructura imperativa en un sistema programado. Tenemos, por ejemplo, el aprendizaje por refuerzo, que es una forma de aprendizaje automático en el que la máquina se adapta para encontrar buenas soluciones basadas en la recompensa o el castigo del entorno para una táctica dada. Es bastante fácil imaginar cómo, por ejemplo, un robot de aprendizaje por refuerzo podría aprender basándose en la retroalimentación de otros robots o humanos que, por ejemplo, causar daño a un humano es algo muy malo en general porque lleva al robot en cuestión siendo desactivado Por lo tanto, desarrollaría un sentido moral basado en la retroalimentación externa del entorno, y para algunos problemas en el aprendizaje automático, los métodos basados ​​en RL son algunos de los únicos que parecen funcionar en absoluto.

También está la cuestión de qué constituye la moralidad y qué es la “elección racional”. Una gran cantidad de teoría sobre la llamada ‘elección racional’ se basa en la rentabilidad global esperada, es decir, en esencia, multiplica el tamaño de la recompensa esperada por la probabilidad de que esta recompensa esperada se materialice, generalmente con algún factor de descuento aplicado aún más en el futuro, se obtendrá la recompensa, pero nuevamente no está claro que esta definición realmente se ajuste a lo que los humanos realmente eligen como agentes racionales. Como un buen ejemplo moral, considere si algún ser humano toleraría un procedimiento médico que ofreciera una probabilidad del 0.01% de curar por completo una enfermedad mortal que afectaría a 1,000,000 de personas si este procedimiento involucrara la muerte segura de otros 10 y la respuesta seguramente sería NO, aunque pedir voluntarios para sacrificarse por el bien de las 100 vidas esperadas salvadas podría ser permisible. Claramente, la definición de elección racional como maximización de la utilidad esperada no es universalmente aplicable.

Sin embargo, diría que al menos es posible que una de las razones por las cuales el escenario que he esbozado no parece corresponder a la maximización de la utilidad esperada es que los humanos han aprendido que casi nunca es el caso con el que se está tratando. información lo suficientemente buena o completa, o de hecho que los datos se pueden caracterizar con la suficiente precisión, para que pueda estimar con precisión la recompensa esperada en casos que implican multiplicar números muy grandes por números muy pequeños. Si esto fuera cierto, entonces un sistema generalmente inteligente aprendería rápidamente a aplicar grandes grados de incertidumbre a tales problemas y llegaría a una respuesta similar a lo que los humanos pueden estar haciendo en situaciones como esta: que hay demasiadas incógnitas para saber si en realidad se salvarían 100 vidas reales, y en ese contexto permitir que se maten 10 es una locura absoluta.

Todo lo cual es una forma, tal vez, de sugerir que la ‘inteligencia general’ es difícil, si no imposible, de crear imperativamente, es casi seguro que se requiere un elemento de aprendizaje automático y esto podría conducir a soluciones sorprendentes, incluida al menos la posibilidad de que La moralidad humana es simplemente una consecuencia natural de tener suficiente inteligencia para poder actuar con flexibilidad en una amplia variedad de situaciones que cambian dinámicamente. O no. Aún no lo sabemos. Y es posible que tengamos que esperar hasta tener computadoras creíbles e inteligentes para tener buenas respuestas.

Pensé en varios enfoques para resolver el problema de alineación de valores, pero luego leí sobre un enfoque plausible que podría funcionar: dejamos que las máquinas aprendan nuestra moral. Pero, por supuesto, debemos construir dispositivos de seguridad para que no seamos destruidos antes de que lo dominen por completo.

Una forma es no dar acceso ASI a ningún actuador. Pueden sentir el mundo entero, recopilar todos los datos de Internet, formular planes, etc., pero no hacen nada en el mundo real ni envían datos falsos que puedan afectar al mundo real. (Realmente deberíamos pensar dos veces acerca de Internet de las cosas. No solo los robots, sino también los terroristas, podrían abusar de esto.

Otro enfoque es que primero deben solicitar un permiso humano para proceder. Luego, el ASI también debe venir con preguntas proactivas antes de proceder. Debe hacer un modelo de nuestra moralidad y extrapolar de eso que podríamos haber formulado nuestros deseos de la manera incorrecta.

Entonces, en la historia del Rey Midas, un robot debería preguntar: ¿estás realmente seguro de que debo convertir todo en oro que toques, incluida tu comida, los miembros de tu familia y el aire que respiras?

Luego puede sugerir una alternativa: señale el objeto que desea cambiar en oro y diga la palabra mágica “abracadabra”.

Esto podria funcionar. Entonces no veo la necesidad de que cada robot tenga que comenzar como una tabula rasa, una hoja en blanco. Pueden intercambiar lo que han aprendido y así aprender unos de otros. Especialmente si se han producido algunos “incidentes” locales, todos los robots deben actualizarse para evitar esto en el futuro. Por lo tanto, puede haber víctimas, pero ASI aprenderá de ellas.

Estamos lejos de AGI todavía. Necesitamos sistemas que puedan aprender de unos pocos o incluso un ejemplo, sistemas que puedan generalizar y transferir reglas aprendidas a una gama más amplia de aplicaciones y fenómenos.

En primer lugar: “Si bien la invención de AGI aún no se ha anunciado oficialmente”, y no se ha logrado. Fuera del bombo de los medios, la IA como campo no está más cerca de AGI que hace unos años o en la década de 1970 para el caso. Últimamente hemos mejorado en el uso de redes neuronales profundas, eso es todo.

La respuesta a esta pregunta solo puede ser: tal vez . Porque tanto la moral como la inteligencia son inherentemente difíciles de definir y, por lo tanto, codificar.

Realmente no sabemos qué constituye inteligencia o sensibilidad . No podemos medirlo y resulta difícil definirlo rigurosamente.

Hemos estado discutiendo y desarrollando lo que es la ética humana desde la primera vez que miramos las estrellas hace milenios. Lo que constituía el pensamiento y el comportamiento correctos para un humano en Egipto faraónico es muy diferente de lo que era verdad en la Inglaterra victoriana a lo que es verdad hoy. Si alguna vez alcanzamos AGI, probablemente tendremos que codificar con fuerza algún tipo de adhesión a las normas contemporáneas, pero realmente definirlo más allá de algunas reglas sociales que son ciertas en un momento y lugar determinados, parece casi imposible.

Ya estamos discutiendo cómo las IA simples rompen con algo de nuestra normalidad social, como los policías en el juego GTA V que parecen estar programados para objetivos raciales. Uno puede imaginar discusiones en el futuro sobre quién programó qué ética cuestionable en sus IA, de forma similar a cómo la televisión y los juegos son atacados hoy por qué “mensajes” están enviando. Pero yo divago.

En resumen, estamos tratando con la pregunta de cuál es la más difícil de las dos incógnitas conocidas. A lo que solo podemos decir, no podemos saber.

Si un sistema de aprendizaje está diseñado para ser inherentemente imitativo, entonces modelará a su maestro. Probablemente no haya mejor manera de codificar el sistema de ética que le gustaría que enseñar con ejemplos las formas en que le gustaría que se comportara, y tener un sesgo para imitar sus comportamientos y objetivos.

No lo sabemos, porque todavía no hemos llegado allí.

Pero solo por el estado de la investigación preliminar, podría decirse que sí, aunque solo sea porque el primer AGI puede surgir bajo nuestras narices antes de resolver la cuestión de cómo asegurar un resultado con Friendly AGI.