¿Cómo afecta la inteligencia del juez humano al resultado de la prueba de Turing? La tecnología cambia la vida futura

Los jueces pueden cambiar completamente el resultado de una prueba de Turing. Por ejemplo, en el concurso de pruebas de Turing de la Universidad de Reading de 2014 , los organizadores afirmaron que la prueba de Turing fue aprobada por primera vez por un chatbot llamado ‘Eugene’. Resulta que Eugene simula a un niño de 13 años y fue desarrollado por un ruso de nombre Vladimir Veselov. Los jueces fueron engañados por un chatbot que no habla muy bien inglés y tiene el conocimiento de un niño y, sin embargo, solo pudo convencer al 33% de los jueces en un tiempo bastante corto (siempre que sepa que Turing nunca limitó el tiempo de prueba). Con la Universidad de Reading lanzando una declaración ridícula titulada ” EL TURNO DE PRUEBA MARCA EL HITO EN LA HISTORIA DE LA COMPUTACIÓN ” respaldando el fiasco. Esto no debería haber sucedido.

Me hubiera encantado escuchar la noticia de que la prueba de Turing se había aprobado por los motivos correctos, si hubiera una razón genuina para creerlo. Desafortunadamente, este no es el caso para el reclamo y los audaces informes publicados a su paso, sin ningún comentario crítico, por los principales periódicos y revistas. Si bien es difícil comprender las motivaciones exactas que llevaron a Turing a idear lo que él llamó “el juego de imitación”, está claro que el chatbot que, según se afirma, pasó la prueba de Turing no es diferente de cualquier otro chatbot probado antes de juzgar por los tipos de conversaciones que ha emprendido, excepto por el intento deliberado de sus creadores de subrayar sus limitaciones al caracterizarlo como un hablante de inglés no nativo de 13 años. Si las reglas se pueden doblar de esta manera, podría, llevando las cosas al límite, escribir fácilmente un guión para pasar la prueba de Turing que simulaba un bebé de 2 meses, o de un extraterrestre escribiendo galimatías o un borracho para eso importa, uno que olvida incluso la última pregunta que se hizo.

Tomado en serio, la Prueba de Turing no debe ser una prueba para engañar a los jueces de esta manera; en la pantalla deberían mostrarse las habilidades lingüísticas de un interlocutor típico que trabaja en su idioma nativo y a plena capacidad (lo que descartaría, por ejemplo, una simulación de un borracho o de una persona con discapacidad intelectual). Un hito en la IA en el contexto de la prueba de Turing será un chatbot que sea realmente capaz de simular toda la gama de habilidades lingüísticas de una persona normal que trabaje a plena capacidad, un chatbot que no responde con preguntas u olvida lo que se dijo en el comienzo de una conversación (o una pregunta anterior para ese caso), un chatbot que no necesita una tabla de búsqueda del mismo tamaño que la cantidad de preguntas que puede responder, y que, sin embargo, puede responder aproximadamente al mismo tiempo que un ser humano.

La afirmación de que se aprobó la prueba de Turing no hace más que dañar el campo de la inteligencia artificial, porque cualquiera que esté investigando más allá de lo que los periódicos y revistas han recogido del comunicado de prensa original y repite palabra por palabra (vergüenza para todos, no solo por esto, pero por tantos otros errores atroces difundidos por ellos, como tomar un guión para una supercomputadora), lo juzgará un fiasco en detrimento de los verdaderos éxitos en el campo, pasado y futuro. Este supuesto éxito ha perjudicado al campo y a los creadores posiblemente honestos del chatbot, cuya admisión abierta de que le habían dado el carácter de un niño extranjero de 13 años podría haber tenido como objetivo disminuir las expectativas de lo que podría lograr.

El error de afirmar que su ganador pasó la verdadera prueba de Turing como lo llamaron, e incluso llamarlo un hito, es difícil de disculpar, especialmente en vista del daño que podría causar al campo, y de hecho a los propios organizadores y a otros Eventos de prueba de Turing que ya habían tenido dificultades para distanciarlos de una actividad simplemente entretenida. En resumen, si se consideró que una prueba de Turing se aprobó hace 2 días, lo hizo por todas las razones equivocadas.

El profesor Warwick ha escrito en The Independent sobre las críticas en su defensa:

“… A los jueces no se les dijo que era un adolescente y Turing nunca sugirió que la inteligencia artificial tendría que hacerse pasar por un adulto, solo que engañó a la gente a pensar que era humana. Los jueces eran libres de hacer a los sujetos cualquier pregunta que les gustara en conversaciones sin restricciones, y Eugene era claramente capaz de defenderse ”.

Realmente … mantengo mi propuesta para poder pasar una prueba de Turing sin restricciones con este espíritu y escribir un chatbot que emule a un bebé de 2 meses. Qué poco sentido común para una prueba que debería haberse realizado impecable y que se afirma que tenía estándares muy altos. También aprendí que a los jueces se les permitía ser niños, entre otros, así que, una vez más, por qué no ponemos a los bebés como jueces, Turing nunca dijo nada en contra, el único requisito que Turing dijo explícitamente era tener expertos no informáticos.

Prefiero hacer una pregunta que requiera conectar ideas a través del tiempo de conversación, como “¿Qué dije sobre X en el momento Y de nuestra conversación?”, Donde X sería reformulado adicionalmente de alguna manera que solo una IA capaz de razonamiento temporal e interpretación semántica se desenredaría (asegurándose de que los humanos lo hagan). La mayoría de los chatbots fallan en los puntos de conexión en el tiempo de conversación y aún más al reformular algo que se dijo. Estoy sorprendido de que la mayoría de los jueces en las pruebas de Turing no hagan este tipo de preguntas mirando sus transcripciones y más bien hagan preguntas muy simples como tratar de ayudar a la IA a pasar la prueba porque estamos muy entusiasmados (pero haciendo que la prueba sea deshonesta y poco científica) ) Turing no limitó la complejidad de las preguntas a formular y no deberían estar en un verdadero experimento científico.

InteligenciaInteligencia ArtificialPrueba de Turing