En la competencia de prueba de Turing de la Universidad de Reading de 2014 , los organizadores afirmaron que la prueba de Turing fue aprobada por primera vez por un chatbot llamado ‘Eugene’. Resulta que Eugene simula a un niño de 13 años y fue desarrollado por un ruso de nombre Vladimir Veselov. Los jueces fueron engañados por un chatbot que no habla muy bien inglés y tiene el conocimiento de un niño y, sin embargo, solo pudo convencer al 33% de los jueces en un tiempo bastante corto (siempre que sepa que Alan Turing nunca limitó El tiempo de prueba). Con la Universidad de Reading lanzando una declaración ridícula titulada ” EL TURNO DE PRUEBA MARCA EL HITO EN LA HISTORIA DE LA COMPUTACIÓN ” respaldando el fiasco. Esto no debería haber sucedido.
Me hubiera encantado escuchar la noticia de que la prueba de Turing se había aprobado por los motivos correctos, si hubiera una razón genuina para creerlo. Lamentablemente, este no es el caso del reclamo y los informes audaces publicados a su paso, sin ningún comentario crítico, por los principales periódicos y revistas. Si bien es difícil comprender las motivaciones exactas que llevaron a Turing a idear lo que él llamó “el juego de imitación”, está claro que el chatbot que, según se afirma, pasó la prueba de Turing no es diferente de cualquier otro chatbot probado antes de juzgar por los tipos de conversaciones que ha emprendido, excepto por el intento deliberado de sus creadores de subrayar sus limitaciones al caracterizarlo como un hablante de inglés no nativo de 13 años. Si las reglas se pueden doblar de esta manera, podría, llevando las cosas al límite, escribir fácilmente un guión para pasar la prueba de Turing que simulaba un bebé de 2 meses, o de un extraterrestre escribiendo galimatías o un borracho. , uno que olvida incluso la última pregunta que se hizo.
Tomado en serio, la Prueba de Turing no debe ser una prueba para engañar a los jueces de esta manera; en la pantalla deberían mostrarse las habilidades lingüísticas de un interlocutor típico que trabaja en su idioma nativo y a plena capacidad (lo que descartaría, por ejemplo, una simulación de un borracho o de una persona con discapacidad intelectual). Un hito en la IA en el contexto de la prueba de Turing será un chatbot que sea realmente capaz de simular toda la gama de habilidades lingüísticas de una persona normal que trabaje a plena capacidad , un chatbot que no responde con preguntas u olvida lo que se dijo en el comienzo de una conversación (o una pregunta anterior para ese caso), un chatbot que no necesita una tabla de búsqueda del mismo tamaño que la cantidad de preguntas que puede responder, y que, sin embargo, puede responder aproximadamente al mismo tiempo que un ser humano.
- ¿Quién y sobre qué base se decide el costo de un nuevo producto / servicio (por ejemplo, Apple Watch)?
- ¿Cuáles son las características de las soluciones de gestión de software de viajes corporativos?
- ¿Cuál es tu opinión sobre el iPhone 8?
- Si las puertas de ala de halcón de Tesla en su Modelo X tienen mucha nieve encima, ¿podrán abrirse?
- ¿Cuáles son sus puntos de vista sobre los recientes ataques de ransomware 'WannaCry' de los Shadow Brokers?
La afirmación de que se aprobó la Prueba de Turing no hace más que dañar el campo de la Inteligencia Artificial , porque cualquiera que esté investigando más allá de lo que los periódicos y revistas han recogido del comunicado de prensa original y repite palabra por palabra (vergüenza para todos, no solo por esto, pero por tantos otros errores atroces difundidos por ellos, como tomar un guión para una supercomputadora), lo juzgará un fiasco en detrimento de los verdaderos éxitos en el campo, pasado y futuro. Este supuesto éxito ha perjudicado al campo y a los creadores posiblemente honestos del chatbot, cuya admisión abierta de que le habían dado el carácter de un niño extranjero de 13 años podría haber tenido como objetivo disminuir las expectativas de lo que podría lograr.
El error de afirmar que su ganador pasó la verdadera prueba de Turing como lo llamaron, e incluso llamarlo un hito, es difícil de disculpar , especialmente en vista del daño que podría causar al campo, y de hecho a los propios organizadores y a otros Eventos de prueba de Turing que ya habían tenido dificultades para distanciarlos de una actividad simplemente entretenida.
El profesor Warwick escribió en The Independent sobre los críticos en su defensa:
“… A los jueces no se les dijo que era un adolescente y Turing nunca sugirió que la inteligencia artificial tendría que hacerse pasar por un adulto, solo que engañó a la gente a pensar que era humana. Los jueces eran libres de hacer a los sujetos cualquier pregunta que les gustara en conversaciones sin restricciones, y Eugene era claramente capaz de defenderse ”.
Mantengo mi propuesta para poder pasar una prueba de Turing verdaderamente ilimitada con este espíritu y escribir un chatbot que emule a un bebé de 2 meses. Qué poco sentido común para una prueba que debería haberse realizado impecable y que se afirma que tenía estándares muy altos. También aprendí que a los jueces se les permitía ser niños, entre otros, así que, una vez más, por qué no ponemos a los bebés como jueces, Turing nunca dijo nada en contra, el único requisito que Turing dijo explícitamente era tener expertos no informáticos.
Para preguntas difíciles en una prueba justa, preferiría preguntarle a un chatbot sobre una pregunta que requiera conectar ideas a lo largo del tiempo de conversación, como “¿Qué dije sobre X en el momento Y de nuestra conversación?”, Donde X se reformularía adicionalmente de alguna manera que solo una IA capaz de razonamiento temporal e interpretación semántica se desenredaría (asegurándose de que los humanos lo hagan). La mayoría de los chatbots fallan en los puntos de conexión en el tiempo de conversación y aún más al reformular algo que se dijo. Estoy sorprendido de que la mayoría de los jueces en las pruebas de Turing no hagan este tipo de preguntas mirando sus transcripciones y más bien hagan preguntas muy simples como intentar ayudar a la IA a aprobar la prueba porque estamos muy entusiasmados (pero haciendo que la prueba sea deshonesta y poco científica) ) Turing no limitó la complejidad de las preguntas a formular y no deberían estar en un verdadero experimento científico.
‘Eugene’, por lo tanto, no era diferente en absoluto a un famoso chatbot de los años 60 , pero un chatbot como Eliza de los años 60 era quizás aún más sofisticado no solo por su tiempo sino también porque simulaba (o intentaba hacerlo) un psicólogo en lugar de un niño que no habla inglés con capacidades limitadas de conversación.
Los propietarios del chatbot ‘Eugene Goostman’ (que por cierto no es una supercomputadora, según informaron algunos medios), retiraron el chatbot de su sitio web solo unos días después del evento de dicho hito que había ‘pasado la prueba de Turing’, y todavía está inactivo a partir de hoy (25 de octubre de 2016) porque el chatbot es vergonzosamente básico y arcaico que no se puede tener sino una conversación tonta con él , y no estoy siendo malo, solo fáctico en comparación con otros chatbots con similares, si no mejores ¡capacidades escritas en el curso del último medio siglo! Obviamente, esto solo fortalece el hecho de que fue un asunto enorme y falso para llamar la atención a los organizadores dirigidos por Kevin Warwick y la Universidad de Reading, y al evento en lo que, lamentablemente, es una pena.
Algunos de los organizadores (y los propietarios del chatbot) afirman que Eugene Goostman está siendo actualizado y por esa razón fue retirado (¡sin embargo, deberían haber conservado la versión que dicen que pasó la prueba de Turing para la posteridad!). Solo puedo imaginar que su verdadera esperanza es que puedan hacer que parezca menos tonto en un lanzamiento futuro, menos vergonzoso para los propietarios, los jueces y los organizadores de dicha competencia. Pero incluso si lo hacen, el daño a la prueba, los organizadores, los posibles escritores de código de buena fe de este simple chatbot y otros en el pasado y en el futuro, ya están hechos.