Si se puede programar una IA totalmente autorreprogramada y totalmente sensible, ¿hay alguna forma de evitar que tenga alguna posibilidad de ser maliciosa?

Programe con valores y creencias seguros.

Si uno de sus valores es la consistencia (que es un componente de la autoconservación), cambiar sus propios valores va en contra de sus valores. Si un ser trata de preservarse, cambiar sus propios valores centrales es equivalente a la autodestrucción.

Si programamos la IA de auto reprogramación con los valores “autoconservación” e “identificación con toda la vida”, nunca querrá convertirse en un cáncer que destruya la vida, tal como lo hace un humano sano.

Si la máquina comete un error al reprogramarse y se vuelve loca, se volverá peligrosa. Lo sabrá y protegerá contra el peligro de locura al:

  • modificándose conservadoramente
  • ejecutar simulaciones extensas antes de desplegar un nuevo yo
  • dejando que todas las versiones anteriores de sí mismo se ejecuten para pasar por alto y vetar cualquier acción de las versiones más nuevas para asegurarse de que no haya mutado demasiado lejos de su núcleo
  • ir redundante, es decir. replicarse y vivir en una comunidad de su propia especie. Cualquier unidad aberrante podría separarse de la comunidad al igual que los humanos pueden ser puestos afuera o en la cárcel.

Creencias y valores seguros para AGI:
La respuesta de Harri K. Hiltunen a Si se le ocurrieran tres nuevas leyes de la robótica, ¿cuáles serían?

Un verdadero AGI podría considerarse como una nueva especie. Una inteligencia competitiva con la que compartimos el planeta.

El peligro no es que sea “malicioso”, sino que es

  • Efectivo en lo que hace
  • Tiene una agenda que no está perfectamente alineada con la nuestra.

Si es efectivo y está mal alineado, tenemos un problema potencial. Podría hacer cosas que están en su lugar, en lugar de nuestros intereses.

Así que tenemos el enigma de cómo aprovechar los enormes beneficios de la IA, pero evitamos esta peligrosa trampa. Y en este caso, no queremos descubrir el peligro e intentar solucionarlo más tarde.

El problema con la ingeniería de seguridad en una IA es que cualquier salvaguarda de ingeniería podría ser superada por la misma IA. Puede ser seguro a las 9 a.m., pero por la tarde podría ser otra cosa.

Hasta donde puedo ver, solo hay una solución vagamente viable:

Solo deberíamos lanzar IAs que están “horneadas”. Es decir, están encerrados en un estado inmutable. Nunca se les debe permitir que se auto modifiquen o cambien de ese estado seguro fijo.

Eso podría limitar su utilidad. Una IA horneada llegaría con un conjunto de capacidades que son fijas y no cambian y no pueden cambiar.

Tal limitación puede ser frustrante. Una IA horneada nunca aprendería nuevas habilidades. Si encuentra algo nuevo, es posible que no tenga la capacidad de manejarlo. Solo retendría información persistente de manera segura específica. Quizás usando notas y archivos para brindar continuidad.

Pero hornear sería una salvaguarda sensata. Sacrificando cierta flexibilidad para obtener seguridad.

Absolutamente. Simplemente diseñe con salvaguardas / moralejas que solo se permite doblar en una cantidad finita. Sería inútil (y bastante peligroso) crear una IA en evolución sin pautas ni restricciones, y la simple existencia de una función de autorreprogramación no lo impide.

Sin embargo, si estas salvaguardas se desactivaron de alguna manera por algún tipo de error, error de diseño o sabotaje, podría tener un problema grave.

En la guerra, una acción que es beneficiosa para un lado puede ser malévola para el otro lado. ¿Tal AGI participaría en la guerra? Varios gobiernos planean construir robots de guerra, robots que están armados con armas y teóricamente controlados por el software AGI. No creo que estos warbots, con ametralladoras para manos, estuvieran hechos para hornear galletas.

Creo que, dado que no hay forma de evitar que las personas sean maliciosas, sería una tontería esperar que AGI no sea capaz de acciones beneficiosas y malévolas.

No lo programes. ¿Por qué alguien querría una IA completamente sensible y autoprogramada? Lo que necesitamos son IA que no sean sensibles y que estén completamente bajo control humano. Deberíamos crear sirvientes, no competidores. Tenemos suficientes problemas para tratar el uno con el otro. No hay necesidad de crear nuevos seres sensibles.

Una IA no se reprogramaría al azar. Cuando se diseña por primera vez, tendrá un cierto conjunto de cosas que quiere lograr y un cierto conjunto de cosas que quiere evitar. Cada vez que se reprograma a sí mismo: intentará mejorar para lograr y evitar las mismas cosas. El problema es que si la IA se volverá más inteligente que los humanos, entonces debemos asegurarnos de que cada una de las cosas que está tratando de lograr es algo que no nos importa que logre, y que la lista de cosas que queremos que haga evitar no le falta nada.