¿Cómo sabemos que la investigación amigable de IA es realmente correcta / significativa?

Preguntar cómo podríamos controlar una superinteligencia divina para que siga siendo amigable, es como las bacterias en el intestino preguntando cómo podrían evolucionar hacia el tipo de humanos que no usarán antibióticos. Nuestros cerebros no son lo suficientemente potentes como para comprender el problema, mucho menos resolverlo.

El modelo de amenaza de “IA amigable” planteado por MIRI y el Instituto del Futuro de la Humanidad es que una IA poderosa y recursiva que se mejora automáticamente podría malinterpretar o cambiar los objetivos que le damos. Como un simple ejemplo, una IA podría malinterpretar “eliminar todo el sufrimiento humano” al matar a todos los humanos. Incluso si somos muy cuidadosos con lo que pedimos, y diseñamos la IA para comprender lo que queremos decir, sus objetivos aún podrían derivar en una dirección egoísta a medida que la IA crea versiones más inteligentes de sí misma. ¿Cómo nos aseguramos de que cuando los robots construyan robots más inteligentes, los robots hijos tengan los mismos objetivos? ¿Cómo podemos saber cuáles son sus objetivos cuando es más inteligente que nosotros?

No estoy de acuerdo con dos aspectos del modelo de amenaza MIRI / FHI. Primero, la IA generalmente no es un proceso de optimización dirigido a un objetivo. El aprendizaje de refuerzo es una forma ineficiente de transferir conocimiento a una computadora porque la señal de recompensa / penalización tiene un ancho de banda bajo. Además, Shane Legg demostró (ver ¿Existe una teoría universal elegante de la predicción?) Que los estudiantes poderosos son necesariamente complejos. No existe un algoritmo de aprendizaje de propósito general que pueda satisfacer objetivos arbitrarios. El efecto práctico de este teorema es que incluso cuando el objetivo es obvio, como para Deep Blue (ganar en el ajedrez) o Watson (¡ganar en Jeopardy! ), Todavía terminamos escribiendo mucho código para resolver un problema muy específico. Ciertamente, el sistema no vivo más inteligente del planeta, Internet, no se puede describir útilmente como teniendo objetivos.

En segundo lugar, la inteligencia depende tanto del conocimiento como de la potencia informática. Pero una IA que hace una copia de sí misma no puede enseñarle a la copia nada que ya no sepa. Solo puede agregar velocidad de computación y memoria.

Creo que los autorreplicadores son, sin embargo, una amenaza. Vale la pena preguntar qué tan rápido un robot autorreplicante podría dominar el mundo y desplazar la vida basada en el ADN. Según Robert Freitas, unas pocas semanas. (Ver algunos límites a la ecofagia global). Los autorreplicadores más rápidos tendrían aproximadamente el mismo tamaño, velocidad y requisitos de energía que las bacterias, dentro de un orden de magnitud. Copiar bits, ya sea en ADN o en silicio, requiere energía k T ln 2 por bit, donde T es la temperatura yk es la constante de Boltzmann. Los organismos vivos ya han evolucionado cerca de este límite. Sin embargo, podemos hacer mejoras marginales. Por ejemplo, ya tenemos células solares que convierten del 20% al 30% de la luz solar en energía utilizable, en comparación con el 8% para la fotosíntesis.

Espero que las impresoras moleculares tridimensionales se vuelvan tan baratas como las computadoras. Cuando eso suceda, cualquiera podrá crear patógenos genéticamente modificados o nanobots autorreplicantes tan fácilmente como puede crear virus informáticos en la actualidad. Nuestra trayectoria en el manejo de agentes autorreplicantes es deficiente, ya sea malware o malaria portadora de mosquitos.

Contestaré su pregunta en dos partes, cada una abordando sus dos preguntas.

¿Cómo sabemos que la investigación amigable de IA es realmente correcta / significativa?

En primer lugar, todavía estamos relativamente lejos de AGI o superinteligencia, por lo que tenemos tiempo para implementar medidas de seguridad para cuando lleguemos a una IA que es más inteligente que nosotros. La investigación en AI Safety se ejecuta paralelamente al progreso en AGI para garantizar que tengamos disposiciones de seguridad. Empresas como Google tienen una junta de ética y están consultando con instituciones como el Future of Humanity Institute sobre cómo podemos garantizar que la IA esté segura en el futuro, particularmente cuando alcanza un nivel de inteligencia que está a la par con la inteligencia humana.

Dentro de la investigación de seguridad de IA ha habido muchos avances en lo que podría suceder una vez que alcancemos un nivel de AGI. Es importante recordar que muchas de las preocupaciones que rodean a la IA se derivan de la ciencia ficción, exageradas por la publicidad de los medios, y es importante distinguir entre lo que es ficción y lo que podría convertirse en realidad.

La clave para garantizar que la investigación de seguridad de la IA sea significativa es que adoptemos un enfoque multidisciplinario que es lo que están haciendo organizaciones como FLI, FHI y MIRI. No solo es importante tener en cuenta las consideraciones tecnológicas / computacionales de la IA, sino también las implicaciones filosóficas / éticas más amplias y las implicaciones sociales.

Si la IA es mucho más inteligente que nosotros, ¿cómo podríamos incluso predecir su comportamiento futuro?

En pocas palabras, no podemos saber con certeza qué sucederá cuando creamos una IA que sea más inteligente que nosotros. Sin embargo, podemos formular escenarios realistas y crear soluciones que luego podamos aplicar y adaptar si es necesario.

Una de las mayores preocupaciones es la IA de auto-programación recursiva. Esto es cuando la IA puede cambiar su propio diseño, mejorarse y replicarse, creando máquinas cada vez más potentes en cada intervalo. Hay otros problemas que también debemos considerar. Por ejemplo:

  • Conteniendo IA en la infosfera tecnológica: si la IA tiene inteligencia de nivel humano o superior, tendrá acceso a grandes cantidades de información a través de Internet. La pregunta que tenemos que hacer aquí es ‘¿cómo lo cerramos si se sale de control’?
  • Es posible alinear los objetivos de una IA con los nuestros, pero cualquier falta de comunicación o falta de precisión podría conducir a resultados potencialmente peligrosos.

Una forma en que podemos ‘predecir’ la IA es asegurando que tenemos restricciones internas impuestas en los sistemas de IA. Chalmers (2010) propone numerosas formas como ‘… restringir sus capacidades cognitivas …’ y ‘… restringir los valores de los sistemas de IA …’ a través de medios computacionales. Si consideramos la emulación del cerebro completo (WBE), es probable que la IA adquiera tendencias humanas y tenga valores humanos. Los valores humanos son imperfectos, pero los humanos son relativamente predecibles.

Ahora enumeraré algunos modelos para ilustrar cómo podemos evitar un resultado potencialmente desastroso:

Yudkowsky (2008) propone inculcar a la IA un objetivo principal de “amistad”, que dominará cualquier otro objetivo secundario. Es importante tener en cuenta que los objetivos secundarios se derivan del objetivo principal de la amistad, por lo que incluso si la ‘superación personal’ fuera un objetivo de un sistema de IA, solo sería capaz de ejecutar ese objetivo si se beneficiara el objetivo final .

Goertzel (2001) tiene un modelo que se enfoca en restringir valores al tener objetivos más abstractos en la parte superior de las capacidades de toma de decisiones de una IA y tener objetivos específicos más bajos. La razón es que si una IA fuera capaz de cambiar sus propios objetivos, probablemente cambiaría primero el objetivo principal. Al inculcar una IA con objetivos fijos más abajo en la jerarquía, es probable que permanezcan algunos objetivos (los que se alinean con los nuestros).

Russell discute el aprendizaje de refuerzo inverso, que a diferencia del aprendizaje de refuerzo ordinario, es cuando la IA puede determinar un comportamiento y luego identifica lo que ese comportamiento está tratando de maximizar. (Lea esta entrevista con Russell sobre precisamente este tema: https://www.quantamagazine.org/2 …)

Bostrom (2011) proporciona un modelo más holístico de cómo podemos crear una IA segura:

  1. La investigación en IA debería ser transparente para la inspección
  2. La IA debería ser predecible para aquellos que gobiernan y
  3. La IA debería ser robusta contra la manipulación

Como puede ver, la ‘previsibilidad’ es importante, pero hay otras cosas que debemos considerar en la investigación de seguridad de IA. La IA predecible es una pequeña parte de una imagen más grande.

En general, lo que está preguntando es una de las mayores preocupaciones tanto dentro como fuera de la comunidad de IA. Investigadores y académicos dentro de esta comunidad están reconociendo la importancia de la seguridad de la IA, con contingencias desarrolladas junto con el progreso que se está haciendo. Como dije al principio, hasta que creamos una IA que tenga inteligencia a nivel humano, no podemos conocer el alcance total del problema en cuestión. Sin embargo, podemos seguir invirtiendo tiempo y recursos para garantizar que la seguridad de la IA esté a la vanguardia de la investigación de la IA y que siga siendo una prioridad a medida que avancemos.

Si desea que le recomiende un poco más de lectura sobre esto, no dude en ponerse en contacto conmigo.

Un sistema de IA no es necesariamente un agente de IA. Durante el desarrollo de los planes comerciales de nuestra startup AGI, resultó que la robótica autónoma es solo un pequeño segmento del espacio de inteligencia artificial. Sin embargo, un agente AGI totalmente autónomo es la peor manera de resolver la gran mayoría de los problemas de robótica concebibles, como explicó mi colega Matt Mahoney. En otras palabras, esos escenarios realmente hablan de una minoría extremadamente pequeña de todas las aplicaciones de IA. Los supuestos restantes para que ocurra un “riesgo existencial” son aún más fuertes (mucho menos probables), lo que resulta en escenarios tan improbables como los cómics. Notarás la similitud con los cómics de Marvel si realmente pierdes tu tiempo y lees cualquier artículo de Yudkowsky o Bostrom. La gente de FHI / FLI / MIRI solo está haciendo especulaciones científicamente inverosímiles, inflando escenarios improbables a probables, para tener éxito en el juicio final o engañando a su audiencia a través de una táctica bien conocida de una cadena de engaños. Puedes encontrar una buena refutación de sus ingenuos “argumentos” aquí en mi blog donde reduzco sus posiciones a absurdo:

Scratch Artificial, ¿es la inteligencia un riesgo existencial?

Supongamos que en realidad construimos un agente AGI, totalmente autónomo y mucho más inteligente que nosotros. No podemos y no podemos predecir su comportamiento futuro debido a los teoremas de incompletitud obvios, sin embargo, podemos hacer muchas soluciones simples para delimitar su comportamiento y fácil de controlar. Introduje los enfoques generales para delimitar su comportamiento en un artículo de divulgación científica en 2013:

¿Benevolente o malévolo?

Básicamente, cambiamos el agente para que ya no sea totalmente autónomo, lo cual es una idea terrible en primer lugar. Ningún ingeniero haría eso, e incluso si lo hicieran, no se saldría de control y saldría del laboratorio ni nada, los ingenieros son mucho más inteligentes de lo que suponen esas personas en esas organizaciones luditas. Sin embargo, la verdadera razón es que, de todos modos, el tipo de escenario que imaginan es improbable, por lo que nunca sucederá. En otras palabras, existe cierto riesgo, pero es pequeño, no es un riesgo existencial y es fácil de administrar para los ingenieros. Esos asesinos de inteligencia artificial ni siquiera están equivocados. No deberíamos intentar construir una “IA amigable”, ese es un concepto humano vago. No se preocupe por los escenarios de juicio fatal pseudocientíficos. Preocuparse por riesgos reales como el calentamiento global y la guerra nuclear. Espero que esto te aclare las cosas.

Si los amigables investigadores de IA no han progresado lo suficiente para cuando sea importante, terminaremos con una IA que esté dispuesta a utilizar métodos que vayan en contra de los valores humanos. El problema es que los humanos no son conscientes de todos nuestros valores. Algunos son obvios (como obtener suficiente comida), pero otros solo se nos revelan cuando se ven comprometidos inesperadamente, o cuando comprometemos voluntariamente los obvios para servir los menos obvios. Siguiendo con el ejemplo de la comida: parte de una investigación amigable de IA sería descubrir qué hace que alguien pase hambre de forma voluntaria, qué valores pueden estar detrás de la decisión de alguien de hacer eso, y descubrir cómo expresar esos valores en algo como una especificación de diseño de software.
Programar una IA que maximice todos nuestros valores obvios sería una tarea importante pero posible, pero ignoraría todos nuestros valores no obvios.

More Interesting

¿Los algoritmos tienen aplicaciones fuera de la informática?

¿Cuáles son algunos trabajos de investigación de lectura obligatoria sobre teoría de juegos?

¿Representando materiales de mundos 3D utilizando datos químicos?

¿Qué áreas de CS tienen la fruta más baja para la investigación?

Cómo realizar una nueva investigación en el campo de VLSI y electrónica integrada y publicarla en revistas internacionales

¿Cómo se podría utilizar la representación del conocimiento y el razonamiento en la ciencia de datos?

¿Cuáles son los documentos fundamentales sobre visión por computadora?

¿Puede la programación competitiva ayudarlo a mejorar en la investigación teórica de la informática / algoritmos? Parece que después de haber resuelto miles de problemas difíciles, puede abordar los problemas en su investigación de manera más eficiente, ¿verdad?

¿Cuáles son los mejores trabajos de investigación, blogs u otros escritos perspicaces sobre el ecosistema bitcoin?

¿Qué grandes problemas computacionales han resuelto las supercomputadoras?

¿Cuáles son algunos de los mejores cursos de informática en el Imperial College de Londres?

¿Cuáles son los problemas más importantes en la visión por computadora?

¿Cuáles son algunos de los problemas de investigación interesantes en la criptografía umbral?

¿Cómo podría un estudiante obtener un trabajo en Google Research o Microsoft Research?

¿Cómo publicar un trabajo de investigación en informática? Quiero investigar en algoritmos. Por donde puedo empezar