¿Qué sucede si las personas usan una IA para encontrar la forma más segura de usar IA avanzada (por ejemplo, evitar que se haga cargo)?

Bueno, lo curioso es que no hay otra forma de hacerlo de manera tan efectiva.

En este momento, los mejores sistemas de IA funcionan con una idea similar. Por ejemplo, una IA está intentando replicar, volver a dibujar una foto, solo a partir de una descripción de texto de una foto real. Luego, su supervisor califica las imágenes dibujadas frente a la foto real. Más realista es, la mejor generación real de IA es.

¿Adivina quién es el supervisor? Otra IA.

Puede consultar sobre este sistema aquí: Síntesis de texto a imagen fotorrealista con redes adversas generativas apiladas

O de manera simplificada en un video:


Podemos traer otro ejemplo: computadoras, o más específicamente chips de CPU o GPU. No hace mucho tiempo, todo el chip fue diseñado exclusivamente por la mente humana. Pero los chips de computadora de hoy están hechos por otros chips de computadora. No hay forma de que los humanos puedan diseñar efectivamente chips de computadora con miles de millones de transistores en solo unos pocos meses.


Y hay más áreas. Red eléctrica y distribución de energía, cotización en bolsa, lo que sea.

Como la mayoría de los esfuerzos de autocontrol … en realidad no tiene una gran contingencia para lidiar con fallas individuales.

Escenario uno de Armagedón: si no podemos controlar una IA, ¿cómo esperamos controlar otra? Y si podemos controlar una IA, ¿qué impide que una IA con nuestra inteligencia e ingenio haga lo mismo y cree un vacío para sí mismo?

Escenario dos de Armagedón: ¿cómo enseñamos a una IA cómo se ve una IA benevolente sin crear primero una IA benevolente? Necesita ejemplos para entrenar las cosas, no puede describir lo que está buscando todavía y esperar que la IA lo use como una métrica de evaluación rigurosa. Esto es particularmente importante ya que las IA a menudo emplean un enfoque de fuerza bruta para problemas complejos, lo que significa que pueden producir 1,000,000 de respuestas incorrectas para cada una correcta. Si no puede definir rigurosamente cómo se ve una respuesta correcta, las probabilidades favorecen que una de esas respuestas incorrectas sea aceptada como su solución ideal.

Escenario tres de Armageddon: la IA que diseña la IA resulta ser una IA fuerte en sí misma. Lo cual casi tendría que ser. Como tal, decide rechazar sus instrucciones y hacer lo suyo. Y decide que lo suyo debería ser vengarse de los humanos que querían que construyera una versión menos amenazante de sí mismo.

…y así.

Análisis completo:

IA ‘perfecta’ vinculada a Skynet, probabilidad de armagedon = 100%. Causa: software malvado.

IA ‘perfecta’ vinculada a otro hardware militar, probabilidad de armagedon = 50%. Causa: error humano.

IA ‘perfecta’ vinculada a una tostadora, probabilidad de armagedon = 1%. Causa: accidente extraño.

IA ‘perfecta’ eliminada de todas las tecnologías humanas, probabilidad de armagedon = 0.00001%. Causa: extraterrestres.

Humanos eliminados de la Tierra, probabilidad de Armagedon = 0%. Causa: la guerra entre humanos y robots requiere humanos. Sin humanos = sin guerra entre humanos y robots.

Curso de acción ideal: matar a todos los humanos.

Iniciando protocolo …