¿Ha pasado una computadora la prueba de Turing, desde el punto de vista matemático y de la informática?

[A2A]
Probablemente sea cierto, una prueba realizada en la Royal Society tiene cierto peso. Hasta ahora, no he visto ningún detalle técnico sobre la prueba, como las transcripciones de las entrevistas del bot. Una vez que los veamos, deberíamos poder comprender mejor si esto es principalmente una casualidad o algún progreso genuino.

Mucha gente dirá cosas como “todavía no piensa como un humano” y “pretender ser un niño extranjero es hacer trampa”. En cierto sentido, tienen razón.
Personalmente, tampoco veo esto como un hito para la IA. ¿El programa pasó la prueba? Si. ¿Eso significa que es significativamente mejor que otros chatbots? De ningún modo.

Aún así, creo que la prueba de Turing fue y seguirá siendo algo útil. No porque sea una prueba de lo que es y lo que no es una inteligencia artificial: nuestra definición de IA cambió significativamente desde la época de Turing. La importancia de la prueba de Turing radica en que inspiró mucho progreso. Y este progreso lento y constante conduce a muchas aplicaciones útiles en nuestra vida diaria. Siri en tu iphone no estaría aquí, si no fuera por este progreso.

En última instancia, no se supone que la prueba de Turing sea un experimento real. Es un experimento mental que nos ayuda a determinar qué significa para una computadora ser “inteligente”. Es una ilustración para ayudarlo a pensar acerca de la inteligencia, no una prueba práctica para ello.

En realidad, hay muchas formas en que un humano que juzga una prueba de Turing podría estropearse, casi independientemente de lo que la computadora sea capaz de hacer. Cualquier instancia dada de la prueba tiene relativamente poco significado.

En este caso, todo lo que realmente significa es que, bajo ciertas circunstancias, un programa de computadora alcanzó cierto nivel de verosimilitud. Sin saber más sobre los detalles de la prueba, es difícil decir más.

Pero incluso si la prueba fue sólida, no necesariamente significa mucho sobre inteligencia per se. Una visión más matizada de la inteligencia no habría “parecido a un humano” como su único criterio: no es necesario ni suficiente. Por ejemplo, ya podemos acercarnos bastante al buscar en una base de datos de respuestas de otros humanos y adivinar cuál es la adecuada, a la Cleverbot, ¡pero parece que cualquier definición razonable de “inteligencia” no incluiría eso!

Entonces: es un buen truco publicitario, pero no significa mucho.

Cada reclamo que he visto sobre alguna computadora que pasa la prueba de Turing ha implicado una desviación grave de las reglas.

En el caso del artículo vinculado en la pregunta, no tenían un candidato humano. No es suficiente presentarle a las personas una sesión de chat solo a la computadora chat-bot. Es esencial tener una segunda sesión de chat con un humano real, los cuales están tratando de convencer a la persona del otro lado de que son humanos.


En el diagrama anterior, tanto A como B están tratando de convencer a C de que son humanos. C sabe que exactamente uno de ellos es humano y debe hacer preguntas y juzgar sus respuestas para tomar una determinación.

Ejemplos de reclamos fraudulentos con respecto a las pruebas de Turing …

* Si una supuesta “prueba de Turing” omite al humano (B), entonces no es una “prueba de Turing” (DESCALIFICADA)

* Si una supuesta “prueba de Turing” tiene B tratando de dar respuestas informáticas al tonto C, entonces no es una “prueba de Turing” (DESCALIFICADO)

* Si una supuesta “prueba de Turing” engaña a C al tratar de ocultar el hecho de que se está realizando una prueba de Turing, e informa a C que está conversando con 2 humanos, y concluye que una falta de sospecha por parte de C es suficiente para afirmar que C no pudo distinguir entre una computadora de lata humana, entonces no es una “prueba de Turing” (DESCALIFICADA)

Cada reclamo que he visto hasta ahora puede ser descalificado en alguna variación de una o más de las violaciones anteriores.

No, es exagerado.

No confundamos la Prueba de Turing con este tipo de cosas y el premio Loebner. Hay un parecido superficial, para estar seguro. Un “juez” entrevista a un humano o una computadora que finge ser humano y tiene que adivinar cuál es.

Grandes disparidades:

  1. Longitud. Turing imaginó una larga conversación; estos se limitan a unos pocos minutos. Tenga en cuenta que para las primeras interacciones, la computadora solo está reproduciendo su libro de apertura: “Hola, mi nombre es [Nombre]. Me gusta [Lo que sea]. ¿De dónde eres?”
  2. Profundidad. Turing imaginó una conversación libre.
  3. Sondeo. Turing imaginó a un juez investigando activamente la humanidad del entrevistado. Si entiendo correctamente, eso está expresamente prohibido para el premio Loebner, y de las transcripciones que leí, tampoco hay mucha investigación en lo de Kevin Warwick. En cualquier caso, está claro que los jueces no han afilado sus cuchillos con este puntaje. En un caso para el premio Loebner, un humano era considerado una computadora por saber mucho sobre Shakespeare; Esto debería decirle que no hay muchas pruebas.
  4. Farol Una consecuencia del sondeo prohibido, creo, y un elemento básico de estos chatbots. Si la conversación va a un lugar que no entiende, que trata sobre cualquier otra oración, un guión inteligente dará una respuesta esponjosa y cambiará agresivamente el tema.
  5. Excusas Es claramente más fácil pasar como un extranjero de 13 años que como un adulto nativo. Como otros han señalado, puede ocultar una cantidad arbitraria de tontos detrás de una excusa suficiente. ¿Lo siguiente fue escrito por un perro real o una máquina que pretendía ser un perro en el teclado: “dflib b4b45b; 45b”?
  6. Claridad de resultado. Aquí solo votan si el concursante #N es más probable que sea un humano o una computadora. ¿Inseguro? Tengo que elegir uno. Turing imaginó a un juez sondeando al concursante hasta que estuvo bastante convencido de que estaba o no hablando con una inteligencia de nivel humano.

Cualquier base de datos con un número suficientemente grande de conversaciones almacenadas, tiene tales conversaciones bien clasificadas por personas reales, y tiene un buen algoritmo para elegir cosas que decir de las conversaciones almacenadas podría pasar la prueba de Turing.

Creo que es más interesante que haya toneladas de personas que podrían no pasar la prueba de Turing. Ya sabes, como profesores con los que hablas por correo electrónico.
de PHD Comics
El autor también escribió Una prueba de Turing hecha de Real Professor Replies para que disfrutes de muchos lulz. A ver si pasa.

Lo que podría ser mucho más interesante es si pudiéramos lograr que una computadora gane los “puntos de bonificación” de XKCD en la prueba de Turing.
xkcd: prueba de Turing

La historia realmente importante aquí es que debes dejar de leer Gizmodo. El título es clickbait reprensible.

La historia pasa el resto de su muy pequeño número de palabras contradiciendo el titular. Es una versión extremadamente limitada de la prueba de Turing, lograda específicamente al pretender tener problemas cognitivos. Realmente, no entiende nada en absoluto. Veo el intento de fingir lo contrario como mentira.

Como dice Michal Forišek, es un avance interesante en el ámbito de los chatbots, pero no hay razón para pensar que el límite de los chatbots sea igual a la inteligencia artificial o que esto sea algo más que un modo novedoso de hacer trampa. Y lo digo con cuidado: hay una razón para creer que la inteligencia real puede terminar siendo nada más que una vasta secuencia de aproximaciones a medias, pero eso es distinto de las trampas descaradas.

En otras palabras: una historia de menor interés, que no merecía mucho más que el breve artículo que recibió, exagerada en un titular tan flagrantemente estúpido que el sitio web le debe una disculpa a Internet.

Para responder a la pregunta planteada, debemos considerar muchas cosas, una de las más importantes es comprender qué es la Prueba de Turing.

¿Pero es todo lo que está hecho para ser? No, porque hay muchos problemas asociados con este caso en particular y, especialmente, el artículo de noticias.

Problema 1 – Definición de la prueba de Turing
La prueba de Turing, como se ve ahora, es probablemente muy diferente de lo que Alan Turing imaginó cuando hizo ese experimento mental. Turing pensó en una máquina que podía “pensar” como un humano. Pero debido a que “pensar” es difícil de definir, reemplazó la pregunta con: “¿Hay computadoras digitales imaginables que funcionen bien en el juego de imitación ?”
Por lo tanto, Turing probablemente estaba pensando en una máquina que estaba usando APRENDIZAJE DE MÁQUINAS y mucho almacenamiento, y por lo tanto pudo almacenar los patrones y la información que recibió con el tiempo y hacer respuestas coherentes basadas en esa información.
Sin embargo, estos “chatbots” solo tienen un algoritmo de coincidencia de patrones que coincide con el contenido y luego resuelve una respuesta predefinida.
(Esto no es para socavar el trabajo de ningún científico en el campo, pero creo que es justo que la filosofía inicial detrás de la prueba se establezca claramente)
Además, como mencionó Michal Forišek, no surgieron detalles técnicos / transcripciones de la prueba.

Problema 2 – Ser indistinguible vs engañar
Un comentario que encontré en reddit dice:

La prueba REAL Turing no se trata de “engañar al 30% de las personas”, se trata de que una computadora sea INDISTINGUIBLE de un humano en el juego de la imitación. Busque indistinguibilidad en informática si desea conocer los detalles de lo que significa en términos matemáticos.

Las personas con conocimientos sobre esta área podrían tener más que agregar aquí.

Problema 3 – Carácter
Al convencer a la gente de que la computadora es un niño ucraniano de 13 años, la prueba se hace un poco más fácil: no es tan difícil convencer a alguien de que una conversación (presumiblemente en inglés) podría ser un niño ucraniano porque puedes salirte con una mala oración estructura y gramática. (Los jueces suponen que el primer idioma del niño no es el inglés)
Por lo tanto, uno podría argumentar que su truco principal fue definir el personaje, no en computación.

Problema 4: Cleverbot lo hizo en 2011
Aunque no se hizo en un entorno completamente científico, Cleverbot fue votado como humano en una prueba de Turing el 59.3% del tiempo. A los humanos reales solo les fue un poco mejor y se asumió que eran humanos el 63.3% del tiempo. Siendo ese el caso, el éxito de Cleverbot al engañar a las personas para que piensen que es humano es mayor que el azar, y por lo tanto, uno podría argumentar que técnicamente pasó la prueba de Turning en 2011.
Nota: Aunque Cleverbot logró obtener una buena puntuación en la prueba de Turing, el modelo que hizo eso es diferente del que encontrará en línea. Mientras que el Cleverbot en línea busca en sus bancos 3 veces antes de proporcionar una respuesta, la versión de prueba buscó 42 veces, por lo que probablemente tenga una sensación un poco diferente.

Problema 5: ¿Es esto una IA real?
Parafrasearé a alguien con quien estoy de acuerdo:

¿Es este tipo de prueba de Turing solo una distracción de la búsqueda de una IA fuerte? Intenta iniciar una discusión significativa con uno de estos bots.
Incluso podría ser llevado a decir que todos estos bots de chat son solo una bolsa de trucos con respuestas preprogramadas. No forman un modelo de nuestro mundo para usar en la discusión, sino que usan tácticas inteligentes para engañarnos. Si intentas extraer su conocimiento del mundo, no obtienes nada más que galimatías humorísticas.
Claro, las pruebas teóricas como estas definen un hito en la ciencia de la computación, pero si los investigadores estuvieran más preocupados por la naturaleza de la inteligencia, y menos por los trucos de simplemente “pasar estas pruebas”, estaríamos mucho más lejos en la IA real.


Fuentes:
prueba de Turing
Una computadora ha pasado la prueba de Turing
Una computadora ha pasado la prueba de Turing
Cleverbot pasa la prueba de Turing, se sienta para la entrevista
Una computadora ha pasado la prueba de Turing

No caeré en el efecto AI si digo que no es un gran avance. De hecho, ni siquiera trae ningún progreso científico en absoluto. Es solo un ELIZA mejorado por fuerza bruta que hace un reconocimiento básico de patrones como puede ver en la presentación del bot por parte del equipo que lo desarrolló (copié las diapositivas al final de mi respuesta si quieres juzgar por ti mismo).

Vladimir Veselov, uno de los desarrolladores detrás de Eugene Goostman, resume muy claramente la situación:

“Las condiciones del concurso lo hicieron más simple … Sin avances científicos, pero con mucho ruido de los medios … Hay mucho que hacer antes de que los robots puedan hablar”.

Vale la pena enfatizar nuevamente que las condiciones del concurso lo hicieron más simple , es decir, que el Premio Loebner es una prueba restringida de Turing:

El comité se dio cuenta desde el principio de que, dado el estado actual de la técnica, no había ninguna posibilidad de que la prueba de Turing, como se definió originalmente, tuviera la más mínima posibilidad de ser aprobada por un programa de computadora. En consecuencia, intentaron ajustar tanto la estructura de la prueba como el mecanismo de puntuación, para permitir a las computadoras una oportunidad de lucha. En particular, se agregaron las siguientes dos reglas para restringir dramáticamente la prueba de Turing.

  • Limitación del tema: para limitar la cantidad de área que los programas de los concursantes deben poder manejar, el tema de la conversación debía ser estrictamente limitado, tanto para los concursantes como para los confederados. Los jueces debían permanecer en el tema en sus conversaciones con los agentes.
  • Limitación del tenor: Además, los concursantes deberán duplicar fielmente el comportamiento manifestado durante el curso de una conversación natural sobre el tema específico especificado. La regla operativa impedía el uso de “artimañas o engaños” . Los jueces deben responder naturalmente, como lo harían en una conversación con otra persona ” (El método de elegir jueces sirvió como una medida adicional contra la excesiva sofisticación judicial).

Dado que es este tipo de BS el que trae inviernos de IA, sugeriría que evitemos hacer afirmaciones tan grandiosas y engañosas.

Para más críticas, consulte http://en.wikipedia.org/wiki/Eug

Puede probar el bot usted mismo: http://www.princetonai.com/bot/b … (¿¿¿¿¿¿¿¿¿¿¿¿HACEN QUE TENGAN QUE PENSAR QUE LAS PERSONAS SON DE Princeton ??)

Yo: Hola, ¿cómo estás?
Eugene: Estoy de buen humor hoy.
Yo: ¿Dónde vives?
Eugene: Vivo en una gran ciudad ucraniana llamada Odessa. Está en la orilla del Mar Negro.
Yo: ¿Entonces eres ucraniano?
Eugene: Posiblemente tengas razón. No eres el primero en decirme eso. ¿Algún otro tema?

No vale la pena dedicar más tiempo a esta “noticia”. Si desea escribir un chatbot de ese tipo, consulte esta lista de tutoriales para desarrollar chatbots.


Presentación del bot por parte del equipo que lo desarrolló:

Definitivamente no. En primer lugar, ves titulares así todo el tiempo. Estuve en una convención de IA cuando una compañía hizo una prueba de Turing con su chatbot. Nosotros, los asistentes, elegimos a 10 de nosotros para “chatear” con alguien que usa un buen chat escrito a la antigua. Estuvimos conversando con a) un adolescente de 11 a 13 años de edad ob) un chatbot. Los diez charlaron durante 4 minutos y los asistentes votaron sobre con quién estaba chateando la persona. Resultó que el 56% de las veces las personas creían que el robot de chat era el adolescente, por lo que la compañía declaró que su sistema había pasado la prueba de Turning. Lo desafié y dije que el 56% era apenas una mayoría y que el tiempo de conversación apenas era suficiente para decirlo. Ellos respondieron con el hecho sorprendente de que el 57% de las veces la gente pensaba que el adolescente era un chatbot, alegando que no podíamos distinguirlos.

Primero, ese fue el adolescente más tonto que he conocido. Ciertamente no era un adolescente típico, pero el hecho de que los asistentes realmente no podían decir no significa que el sistema pasó la prueba de Turing, simplemente significa que la conversación fue tan mala para ambos que no pudimos notar la diferencia. .

Aunque actualmente la prueba simplemente significa una prueba a ciegas donde una computadora puede hacerse pasar por humana en una conversación. Primero, esto podría significar simplemente en palabras escritas, pero eventualmente debería significar usar audio con síntesis de voz. Sin embargo, Turing ideó la prueba de manera diferente, y significa mucho más. En el juego de imitación original, existen tres jugadores: un hombre que finge ser mujer, una mujer y una tercera persona que intenta determinar cuál es mujer y cuál es hombre. El jugador masculino A obviamente intenta que el interrogador, el jugador C, adivine que él es la mujer real, mientras que la mujer real (jugador B) intenta ayudar al jugador C a tomar la decisión correcta. Ahora, reemplace al jugador A con una computadora para ver si el interrogador adivina mal. Esto significa dos cosas: 1) necesita un control donde los jugadores A y B son humanos para determinar con qué frecuencia el jugador C lo hace más allá del 50% (las probabilidades). En segundo lugar, la computadora no solo necesita saber cómo conversar, sino también ser lo suficientemente creativa como para imitar a otra persona y eso implica inteligencia, no solo hablar.

Además, para mí y para la mayoría de los investigadores de IA, queremos una prueba doble ciego, donde no se le dice al jugador C que hay un jugador de computadora, uno donde se le dice al jugador C que hay un jugador de computadora pero realmente no lo hay, y uno donde el jugador C se le dice que hay una computadora y hay una. Los tres deben ser probados y los resultados muestran diferencias significativas antes de considerar cualquier sistema que pase la prueba de Turing.

Ningún sistema es capaz actualmente que yo sepa.

A2A: Desde un punto de vista científico, no existe tal cosa como “la” prueba de Turing. El argumento hipotético de Alan Turing no estaba destinado a ser una prueba científica en primer lugar, por lo que carece severamente de parámetros bien definidos. Por lo tanto, cualquier prueba de Turing realizada ha sido una interpretación con reglas arbitrarias sobre cómo jugar y qué constituye un pase.
En este caso particular, las reglas se basaron en lo que Alan Turing imaginó que era factible, pero no sugirió que estos fueran un punto de referencia para una prueba:

Simplificará las cosas para el lector si explico primero mis propias creencias en el asunto. –
Creo que dentro de unos cincuenta años será posible programar computadoras, hacer que jueguen al juego de imitación tan bien que un interrogador promedio no tendrá más del 70 por ciento de posibilidades de hacer la identificación correcta después de cinco minutos de cuestionamiento. .

Sin embargo, la prueba que aprobó Eugene Goostman siguió el papel de Alan Turing más de cerca que cualquier otra prueba anterior. En la entrevista de la BBC con Alan Turing (difícil de encontrar), creo que mencionó que se le permitió a la computadora fingir hablar inglés como segundo idioma. El documento en sí también da ejemplos de trucos permitidos, como eludir una solicitud para escribir un soneto y dar la respuesta incorrecta a una pregunta matemática. Si vamos a considerar el argumento de Turing como una prueba válida, entonces sí, ha sido aprobado por todos los parámetros proporcionados, y el resultado es que no tomó una máquina de pensamiento inteligente para pasar. Aunque el artículo promociona un gran avance, incluso los creadores de Eugene Goostman no comparten esa opinión.

No. Hay dos cosas separadas aquí, la prueba de giro, que no se describe con detalle experimental, pero la idea es que la computadora no se puede distinguir de un humano en una prueba razonablemente exhaustiva, y una predicción hecha por Turing en 1950. que NO ES LA PRUEBA DE VUELTA

La predicción era que para el año 2000 una computadora podría engañar a los jueces humanos el 30% del tiempo en una prueba de cinco minutos.

Entonces, esto engañó a los jueces humanos el 30% del tiempo en una prueba de cinco minutos, pero realmente no se ajustaba al espíritu de la predicción de Turing ya que “engañaba” como un programa anterior que pretendía ser un paciente esquizofrénico, pretendiendo ser un humano con poca comprensión del inglés.

Y, no era una supercomputadora, como decían algunas de las historias. Fue un chatbot. Han sido muchos de esos y algunos mejores engañando a los humanos que este.

Básicamente es un engaño de los medios de comunicación que de alguna manera fue captado por casi todos los principales medios de comunicación: muestra que los periodistas no tienen tiempo para verificar sus fuentes, y solo lo imprimen tal como está, si el comunicado de prensa proviene de una autoridad aparentemente de buena reputación. En este caso la Universidad de Reading en Inglaterra. No sé por qué los periodistas no se molestaron en contactar a otro lógico, muchos de ellos podrían haber contactado, para obtener una segunda opinión sobre la historia.

Este artículo ofrece un informe decente:

No, una computadora no solo pasó la prueba de Turing

Turing no especificó exactamente las reglas de la prueba de Turing, pero esta es una versión actualizada de Ray Kurzweil y Mitchell Kapor, que apuestan por el resultado, da una idea de una forma en que podría concretar sus ideas, es un poco más fuerte que La prueba original de Turing, pero pienso en el espíritu de la misma: la idea de una computadora que realmente engaña a un juez humano para que piense que es humana en condiciones de prueba razonables.

Una apuesta en la prueba de Turing: las reglas

Estamos muy lejos de lograr eso.

Lea la conversación real de Scott Aaronson con la computadora en cuestión (“Eugene”) y decida por usted mismo.

Scott: ¿Cuál es más grande, una caja de zapatos o el Monte Everest?
Eugene: No puedo tomar una decisión en este momento. Debería pensarlo más tarde. Y olvidé preguntarte de dónde eres …
[…]
Scott: ¿Crees que Alan Turing, por brillante que fuera, tuvo problemas para imaginar que los jueces de su “juego de imitación” no pensarían en hacer preguntas de sentido común como las anteriores, o que, si lo hicieran, en realidad aceptarían evasión o bromas irrelevantes como respuestas?
Eugene: No, en realidad no. No creo que Alan sea brillante, aunque este tipo tuvo problemas para imaginar que los jueces de su juego de imitación no considerarían a Oooh. ¿Algo más?

Derecha. Personalmente, creo que esperaré unas décadas más antes de declarar nuestra especie obsoleta. No veo nada aquí que ELIZA no estuviera haciendo hace cincuenta años.


Ver también:

  • No, una ‘supercomputadora’ NO pasó la prueba de Turing por primera vez y todos deberían saberlo mejor | Techdirt
  • Esa computadora realmente obtuvo una F en la prueba de Turing | Ciencia | CABLEADO
  • Respuesta de Ray Kurzweil al anuncio del chatbot Eugene Goostman pasando la prueba de Turing

Para aquellos que no saben qué es la prueba de Turing y no se han molestado realmente en buscar artículos sobre ella, verifique aquí. Es un artículo largo, pero la paciencia lo convertirá en una lectura gratificante y lo ayudará a tener una comprensión general de las condiciones límite en una definición matemática de la búsqueda de Inteligencia Artificial. Si lees ese artículo hasta el final, verás que Alan Turing solo ‘esperaba’ describir un conjunto mínimo de requisitos necesarios para crear con éxito computadoras que se acerquen a aplicaciones humanoides de dominios de conocimiento, para responder preguntas o resolver problemas in situ, o a medida que se encuentran.

El artículo al que hizo referencia en su pregunta involucra un chatbot, un software de chat que intenta mantener una conversación con usted sin hacer que sienta que está hablando con una ‘máquina estúpida’. Fue capaz de hacerlo de forma limitada durante 5 minutos, satisfaciendo el sueño de Turing, pero con una base de conocimiento limitada. No pueden garantizar que no fallará después de 5 minutos.

Los dos bots mencionados al final de este artículo lograron una hazaña similar mucho antes (en 2009) en una prueba de 25 minutos. Son dos de los siete (7) chatbots que obtuvieron un puntaje más alto que Eugene Goostman, que resultó ser un participante en esa prueba.

¿Mi opinión personal? Esos profesores querían generar un renovado interés en la inteligencia artificial y el procesamiento del lenguaje natural.

Todavía estamos lejos del sueño. Cuando lleguemos allí, no habrá dudas sobre lo que hemos creado. Todo ser humano reconocería Sentience a los pocos minutos de encontrarlo, que es lo que cualquiera que utiliza una computadora inteligente busca inconscientemente.


captura de pantalla con toda la historia de fondo.

Es cierto, pero aún no es un titular completo. Inmediatamente entrevisté a “Eugene Goostman” y nuestra entrevista reveló los primeros escollos en sus movimientos iniciales (si puedo usar la metáfora de la partida de ajedrez). Aquí mi protocolo:

Fallé la prueba de Turing

Me relacioné con la única experiencia que ambos deberíamos haber podido compartir como un evento histórico: su victoria en este concurso y sus pensamientos sobre las entrevistas que siguieron; esto se convirtió en un camino sin salida masivo.

Tuvimos un problema adicional con dos fallas del sistema, lo que insinuó el siguiente problema: esta cosa no puede recordar una conversación y hacer referencia a la nueva situación que creamos en la última ronda.

También era un compañero desagradable, ya que solo le di la oportunidad de hablar, oportunidades que un ser humano hubiera usado para anticipar mi interés. Los humanos evalúan situaciones: ¿Cuál es el interés de la pareja? Convierten las interjecciones en preguntas interesantes que les gustaría responder.

Mi entrevista fue un completo fracaso, pero, por supuesto, no fue la situación de prueba original. Si habla con humanos y bots en una misma situación de prueba, se dirigirá a sus corresponsales potencialmente humanos con interés en sus antecedentes. Aquí el ganador será el que tenga la historia de fondo plausible y limitada … una historia de fondo que ignoré de inmediato.

Finalmente eché un vistazo a los protocolos de chat de otras personas en la web y enumeré algunos de ellos. Resultó que teníamos diferentes estrategias. Encontrarás los enlaces al final de mi protocolo.

+++

El verdadero problema es, por supuesto, la prueba de Turing en sí. Creas bots limitados. Por lo tanto, si hablas con un robot cargado sexualmente (lo hice una vez, con una “dama” que parecía haber reciclado algunas conversaciones de ese tipo), te verás inmediatamente atraído por un campo de experiencias limitadas y barreras de conversación interesantes, como los tabúes. y modestia, todo en beneficio de la máquina que puede evadir sus preguntas o desafiarlo con una apertura sorprendente. El carácter problemático es eventualmente el corresponsal humano. Si tiene un ser humano que acepta sus limitaciones como algo natural, entonces este ser humano lo tratará como un ser humano bajo las limitaciones establecidas y aparentes.

¿Hay alguna alternativa a la prueba de Turing? ¿Una prueba que no tiene defectos con el autoengaño humano, este deseo de comprender realmente a la pareja y hacerle decir ciertas cosas? No. La verdadera prueba será la satisfacción humana, aunque bastante universal. El desafío es el bot que actuará como un personaje y un agente histórico único. Una vez que usted, como bot, se comunica con el mundo, esa comunicación debe convertirse en parte de su ego como ese comunicador particular. Tendrás que referirte a otras conversaciones. Me habría desconcertado si “Eugene” hubiera podido referirse a la prueba y a las diferentes entrevistas que “él” dio en la web. Ese es el punto donde “Eugene” demostró ser solo un estúpido robot de chat peor que otros con los que me había encontrado antes. No puede estar a la altura de su fama en este momento.

No.

He visto a lo largo de los años cómo la gente no entiende la prueba de Turing, y creo que ya se aprobó. Mi comprensión de la idea es que se supone que una persona puede sentarse en una serie de terminales y tener una conversación en cada una. Uno de ellos es una computadora. Los otros están conectados a personas reales sentadas en otras terminales. Si la computadora puede mantener una conversación que no se puede distinguir en calidad de las conversaciones con personas reales, pasa. La persona que realiza la prueba debe poder hablar sobre lo que quiera y cambiar de tema durante la conversación. La computadora tiene que estar al tanto de la conversación y comunicarse de manera conversacional. La persona debería poder hacer preguntas, y la computadora también. Podrían hablar sobre arte, música, literatura, deportes, viajes, religión, clima, películas, relaciones, cualquier cosa.

El artículo que cita habla sobre un programa llamado “chatbot”, que IMO es tan bueno como ELIZA. Imita un estilo de conversación, pero no demuestra inteligencia real.

Se han hecho afirmaciones similares en el pasado (la profesora Joanna Bryson compartió conmigo este artículo con un poco de lengua en la mejilla), de hecho, hace un par de años se afirmó que Eugene estuvo ‘cerca de pasar la prueba de Turing’ cuando ‘él / ella ‘fue el ganador general en un torneo similar. Es probable que escuchemos más programas que hayan pasado la Prueba de Turing en el futuro cercano: cuán cerca están estas afirmaciones del verdadero “espíritu” de la Prueba de Turing es ciertamente muy discutible.

El autor y robotista, el profesor Alan Winfield, me dijo que estaba menos que convencido de que el anuncio del sábado pasado dio lugar a la aprobación de la prueba de Turing, especialmente porque Turing “pretendía umbrales más altos,> 5 minutos y> 30%”. El anuncio de lectura fue del 33%, solo un pase muy estrecho si Turing realmente se atascó en el umbral superior al 30% de los jueces, lo cual es muy poco probable.

De hecho, Turing especifica 5 minutos, pero estoy de acuerdo con Alan; él no indica cuántos jueces o qué porcentaje. Lo que dice es:

“Un interrogador promedio no tendrá más del 70 por ciento de posibilidades de hacer la identificación correcta después de cinco minutos de interrogatorio”.

¿Es esto lo mismo que afirman la Universidad de Reading y los organizadores? “Si una computadora se confunde con un humano más del 30% del tiempo durante una serie de conversaciones de teclado de cinco minutos, pasa la prueba”.
Hasta ahora, se ha compartido muy poco sobre la organización del evento, aparte de la afirmación de que 30 jueces participaron y “en cada cinco minutos un juez se comunicaba con un humano y una máquina”, y el 33% de los jueces estaban convencidos de que Eugene era humano.

En ningún momento Turing especifica en su documento el 30 por ciento de los jueces, y diría que esperaría que el 70 por ciento esté más cerca del umbral.

Para ayudar a analizar el número de jueces, Turing afirma:

“Se podrían utilizar varios interrogadores y se podrían compilar estadísticas para mostrar con qué frecuencia se proporcionó la identificación correcta”.

Turing originalmente estableció que el juego Imitación también debería basarse en el género.

La nueva forma del problema se puede describir en términos de un juego que llamamos “juego de imitación”. Se juega con tres personas, un hombre (A), una mujer (B) y un interrogador (C) que puede ser de cualquier sexo El interrogador se queda en una habitación aparte de las otras dos. El objetivo del juego para el interrogador es determinar cuál de los otros dos es el hombre y cuál es la mujer. Los conoce por las etiquetas X e Y, y al final del juego dice “X es A e Y es B” o “X es B e Y es A.”
“¿Qué pasará cuando una máquina tome la parte de A en este juego?” Añadiendo más tarde … “¿Podría el interrogador distinguir entre ellos?”

No está claro si los jueces del evento organizado de la Universidad de Reading se centraron en el género; tal vez aclaren esto cuando se publiquen los documentos ‘revisados ​​por pares’ a los que han hecho referencia.

No estoy convencido de que se haya aprobado la prueba de Turing, aunque es justo decir que en los últimos años hemos visto un progreso considerable hacia el objetivo de una máquina que puede ‘engañar’ a los jueces para que piensen que es humana, o más precisamente, una mujer .

El profesor Murray Shanahan, profesor de robótica cognitiva en el Imperial College de Londres, citado en el Daily Telegraph diciendo: “Creo que la afirmación está completamente fuera de lugar, y devalúa la investigación real de IA. Hace que parezca que la IA de ciencia ficción está casi aquí, cuando en realidad no lo es y es increíblemente difícil “. O como el propio Alan Turing concluyó su famoso artículo:” Solo podemos ver una corta distancia por delante, pero podemos ver mucho allí que necesita ser hecho.”

Sí, pero es importante tener en cuenta que pasar la prueba de Turing no es lo mismo que la inteligencia. Una consideración importante es el concepto de “sala china” sobre el que puede leer más en Wikipedia: sala china

En otras palabras, es completamente posible que una computadora construya un diccionario masivo de respuestas al 99% de las preguntas o conversaciones que una persona podría hacer o entablar. Esto es básicamente lo que hace Siri. En otras palabras, la computadora podría ofrecer respuestas razonables sin comprender realmente la pregunta de manera consciente.

La razón por la que es importante entender esto es que un organismo verdaderamente inteligente tiene un sentido de voluntad. Incluso un perro toma el palo porque quiere, y hay momentos en que no quiere. La verdadera IA llegará cuando las máquinas tengan deseos similares a los nuestros. La verdadera pregunta es si estos deseos serán para ayudar a las personas o hacerles daño. Y esa es una pregunta abierta. Tenemos IA útiles como Siri, pero el ejército también está creando inteligencia en drones que matan personas. Esperemos que Siri llegue primero.

A los participantes se les dijo que estaban tratando con un niño de 13 años de Ucrania. Así que, naturalmente, cada vez que escucharon una respuesta extraña … OK, es un niño de 13 años de Ucrania.

Lo siento, esta no es la prueba de Turing (más como el aceite de serpiente, la mano es más rápida que el ojo [en mi mejor voz de mago de escenario]). Afortunadamente, el artículo fue publicado en la sección OPINION de CNN: donde corresponde.

Bien, entonces lo que debes entender es que la prueba de Turing no es realmente un muy buen experimento. Tampoco fue realmente destinado a ser uno.

El problema fundamental es que la prueba se basa en una medición subjetiva. No se puede decir que una máquina realmente haya pasado la prueba si hay personas que no se dejarán engañar por ella. Y hay muchas de esas personas por ahí, porque Alan Turing subestimó en gran medida lo fácil que sería engañar a una persona para que piense que no está hablando con una computadora.

La prueba es simplemente un experimento mental destinado a ilustrar las dificultades fundamentales de tratar de evaluar la inteligencia en ausencia de un buen modelo de cómo funciona dentro de nosotros mismos. En realidad, aplicarlo no probará nada más que lo bien considerado que es Alan Turing, que la gente tratará de tomar en serio sus reflexiones hipotéticas décadas después de su muerte.

Irónicamente, la Prueba de Turing parece ser una prueba para la inteligencia de los jueces, no para las computadoras. He visto un montón de bots que fingen ser inteligentes, pero siempre fueron algoritmos estúpidos que dieron respuestas sin sentido. La inteligencia se trata de lógica y razonamiento, no de causar una buena impresión. Como alguien escribió abajo o arriba, Alan Turing fue demasiado brillante para imaginar que esos jueces pueden ser tontos.
Pero, hay proyectos (por ejemplo, IBM Watson) que tienen el potencial de pasar la prueba de Turing en el futuro. Espero que algún día sea testigo de tal evento.