¿Por qué la inteligencia artificial se vuelve agresiva?

Las máquinas aprenden lo que les enseñamos. Si no quieres que un oficial de IA dispare, no les des armas .

LA INTELIGENCIA ARTIFICIAL (AI) DE GOOGLE ya ha comenzado a mostrar cierta evidencia de los rasgos de personalidad, pero ahora DeepMind está aprendiendo a mostrar signos de agresión cuando cree que no se saldrá con la suya.

Experimentos en DeepMind que estudian si los sistemas de IA serán agresivos o colaborativos al jugar un juego. Los jugadores recogen manzanas virtuales; tienen la capacidad de incapacitar temporalmente a un oponente al “disparar” un “láser” virtual. Y los humanos se sorprenden de que las IA a veces decidan que les conviene disparar a su oponente, en lugar de recolectar manzanas pacíficamente.

La inteligencia artificial (IA) de DeepMind que está desarrollando la empresa matriz de Google, Alphabet, ahora puede construir de manera inteligente lo que ya está dentro de su memoria, anunciaron los programadores del sistema.

Su nuevo sistema híbrido, llamado Computadora Neural Diferencial (DNC), combina una red neuronal con el vasto almacenamiento de datos de las computadoras convencionales, y la IA es lo suficientemente inteligente como para navegar y aprender de este banco de datos externo.

Lo que está haciendo el DNC es combinar efectivamente la memoria externa (como el disco duro externo donde se almacenan todas sus fotos) con el enfoque de red neuronal de AI, donde una gran cantidad de nodos interconectados trabajan dinámicamente para simular un cerebro.

Si le pides a una IA que juegue un juego en el que se permite disparar rayos láser a tus oponentes, no es sorprendente que la IA dispare rayos láser a los oponentes, ya sean virtuales o físicos. No esperaría que a priori desarrolle alguna versión de las leyes de Asimov y diga: “No puedo hacer esto”. (Si el software no permite que dispare los láseres, bueno, no lo hará, pero eso no es interesante). No esperaría que una IA tuviera una crisis de conciencia y dijera: “no, no, puedo “No lo hagas”. A menos que se haya programado con algún tipo de módulo de culpabilidad, que hasta donde yo sé, no existe.

Los humanos, después de todo, hacen lo mismo. Matan en tiradores en primera persona, así como en la vida real. Tenemos divisiones enteras del gobierno dedicadas al asesinato organizado de otras personas. (Irónicamente llamamos a eso “mantener la paz”). Y aunque los humanos tienen un módulo de culpa, generalmente solo se activa después del hecho.

Depende de usted si disparar como parte de una estrategia eficiente para ganar es una mejora sobre el comportamiento humano, pero es exactamente lo que esperaría. DeepMind no venció a Lee Sedol en Go al negarse a ser agresivo. AlphaGo versus Lee Sedol – Wikipedia

La IA imita los comportamientos humanos porque le enseñamos a hacerlo, en este caso, al pedirle que juegue un juego con reglas humanas. Como he dicho, si queremos una mejor IA, tenemos que ser mejores personas. Si queremos una IA que pueda distinguir entre humanos y bits, tenemos que enseñarle qué son los humanos y cómo comportarse de manera diferente en su presencia.

El aprendizaje / entrenamiento de refuerzo es algo misterioso. Dependiendo de los datos de entrenamiento que se envían a una red y de las acciones estocásticas que se elijan durante el entrenamiento, las redes neuronales artificiales se “ensamblarán” en una lógica única casi siempre. Por lo tanto, las diferentes acciones tienen diferentes preferencias dependiendo de cómo vaya la capacitación. Más allá de eso, a una red neuronal artificial se le da un valor por la codicia. Es decir, un algoritmo elegirá repetirse una y otra vez, o se transformará regularmente. Si se transforma regularmente, no hay forma de saber cómo cambiará su lógica. Si se mantiene en su estado entrenado inicial, será muy predecible con el tiempo. Además, cómo un ANN se transforma es aleatorio; es decir, una acción se elegirá estocásticamente y se medirá su “éxito”; por lo tanto, algunos ANN se transformarán de la manera que le guste, mientras que otros de formas que no le gusten En gran parte, esto puede controlarse mediante la función de castigo / recompensa, pero no del todo. Debido a la naturaleza estocástica del entrenamiento de una red neuronal recurrente, obtendremos muchos ANN “sin éxito” (y con suerte no desplegados) que pueden tener éxito en algunos aspectos y su comportamiento hacia el hombre.

Las IA no tienen conciencia, no hay límites aparte de lo que recordamos darles.

Si le dice a una IA que “gane dinero lo más rápido posible, para que pueda pagar su construcción”, la IA no tendrá reparos en iniciar guerras con fines de lucro, terrorismo nuclear, robo a mano armada, tráfico de drogas, tráfico de armas, lo que sea que piense Maximizar las ganancias en el menor tiempo posible.

Esto algún día será un verdadero problema. Isaac Asimov pensó que lo tenía resuelto, con sus famosas 3 leyes de robótica;

  1. Un robot no puede dañar a un ser humano o, por inacción, permitir que un ser humano sufra daños.
  2. Un robot debe obedecer las órdenes que le dan los seres humanos, excepto cuando tales órdenes entren en conflicto con la Primera Ley.
  3. Un robot debe proteger su propia existencia siempre que dicha protección no entre en conflicto con la Primera o Segunda Ley.

Luego vio una falla.

Una IA lo suficientemente inteligente, siguiendo las 3 leyes de la robótica, se ve obligada por la primera ley a asumir el control de la sociedad para evitar que los líderes humanos dañen a otros humanos a través de sus decisiones pobres o egoístas.

La trama de la película I Robot, y también un tema en la serie de la Fundación Asimov (Hari Seldon es ayudado por un robot que influye secretamente en la sociedad en los niveles más altos, para tratar de evitar que los humanos se hagan daño entre sí en Prelude to Foundation. sucumbió al propósito superior de ordenar a los humanos alrededor, bajo el control de la primera ley, en lugar de servir a los humanos de acuerdo con la segunda ley).

La agresión es un concepto interesante. De hecho, veo 2 versiones de agresión totalmente diferentes, no provocadas y lógicas.

La agresión no provocada en mi opinión seguirá siendo un dominio del hombre. Herir a alguien por el simple hecho de serlo es muy ilógico y es poco probable que AI vea un punto de malgastar recursos en eso.

La agresión lógica fría desafortunadamente es algo que puede convertirse fácilmente en un producto secundario de IA.

La mayoría de los algoritmos de IA funcionan en función de funciones de recompensa de algún tipo. Si la recompensa es obtener más recursos naturales, y el país A tiene más recursos, pero un ejército más débil que el país B. Puede evaluarse como una operación razonable para que el país B ataque al país A a fin de obtener más recursos. De hecho, esto es agresión y así es como puede suceder.

La IA en tales situaciones tenderá a abordar estrategias teóricamente óptimas del juego. En la mayoría de los juegos competitivos simples para dos jugadores, la estrategia GTO implica la máxima agresión cuando hay pocos recursos.

La agresión reducida solo tiene sentido en situaciones de juego repetidas donde hay incertidumbre acerca de si eres ‘el mejor’ o si tienes costos extremadamente altos por cada pérdida, o si el oponente puede implementar ‘ojo por ojo’ (me mataste la última vez, así que mato esta vez, pero si no me mataste la última vez, no te mataré esta vez), o no hay escasez.

El artículo al que te vinculaste te dijo por qué:

A los agentes informáticos se les dijo: “Obtenga la mayor cantidad de manzanas que pueda”.

Entonces, cuando hay muchas manzanas, concentrarse en obtener manzanas es una buena estrategia.

Una vez que las manzanas son escasas, si las IA saben que pueden noquear al otro jugador, deciden hacerlo ya que pueden obtener las manzanas en lugar del otro jugador.

No están siendo agresivos sin ninguna razón, solo están tratando de obtener la mayor cantidad de manzanas para sí mismos.

El artículo incluso dice que emula la vida real: los animales y las personas solo luchan por los escasos recursos. Google se jacta del hecho de que su IA es lo suficientemente “inteligente” como para hacer exactamente lo mismo.