¿Cómo afecta la inteligencia del juez humano al resultado de la prueba de Turing?

Los jueces pueden cambiar completamente el resultado de una prueba de Turing. Por ejemplo, en el concurso de pruebas de Turing de la Universidad de Reading de 2014 , los organizadores afirmaron que la prueba de Turing fue aprobada por primera vez por un chatbot llamado ‘Eugene’. Resulta que Eugene simula a un niño de 13 años y fue desarrollado por un ruso de nombre Vladimir Veselov. Los jueces fueron engañados por un chatbot que no habla muy bien inglés y tiene el conocimiento de un niño y, sin embargo, solo pudo convencer al 33% de los jueces en un tiempo bastante corto (siempre que sepa que Turing nunca limitó el tiempo de prueba). Con la Universidad de Reading lanzando una declaración ridícula titulada ” EL TURNO DE PRUEBA MARCA EL HITO EN LA HISTORIA DE LA COMPUTACIÓN ” respaldando el fiasco. Esto no debería haber sucedido.

Me hubiera encantado escuchar la noticia de que la prueba de Turing se había aprobado por los motivos correctos, si hubiera una razón genuina para creerlo. Desafortunadamente, este no es el caso para el reclamo y los audaces informes publicados a su paso, sin ningún comentario crítico, por los principales periódicos y revistas. Si bien es difícil comprender las motivaciones exactas que llevaron a Turing a idear lo que él llamó “el juego de imitación”, está claro que el chatbot que, según se afirma, pasó la prueba de Turing no es diferente de cualquier otro chatbot probado antes de juzgar por los tipos de conversaciones que ha emprendido, excepto por el intento deliberado de sus creadores de subrayar sus limitaciones al caracterizarlo como un hablante de inglés no nativo de 13 años. Si las reglas se pueden doblar de esta manera, podría, llevando las cosas al límite, escribir fácilmente un guión para pasar la prueba de Turing que simulaba un bebé de 2 meses, o de un extraterrestre escribiendo galimatías o un borracho para eso importa, uno que olvida incluso la última pregunta que se hizo.

Tomado en serio, la Prueba de Turing no debe ser una prueba para engañar a los jueces de esta manera; en la pantalla deberían mostrarse las habilidades lingüísticas de un interlocutor típico que trabaja en su idioma nativo y a plena capacidad (lo que descartaría, por ejemplo, una simulación de un borracho o de una persona con discapacidad intelectual). Un hito en la IA en el contexto de la prueba de Turing será un chatbot que sea realmente capaz de simular toda la gama de habilidades lingüísticas de una persona normal que trabaje a plena capacidad, un chatbot que no responde con preguntas u olvida lo que se dijo en el comienzo de una conversación (o una pregunta anterior para ese caso), un chatbot que no necesita una tabla de búsqueda del mismo tamaño que la cantidad de preguntas que puede responder, y que, sin embargo, puede responder aproximadamente al mismo tiempo que un ser humano.

La afirmación de que se aprobó la prueba de Turing no hace más que dañar el campo de la inteligencia artificial, porque cualquiera que esté investigando más allá de lo que los periódicos y revistas han recogido del comunicado de prensa original y repite palabra por palabra (vergüenza para todos, no solo por esto, pero por tantos otros errores atroces difundidos por ellos, como tomar un guión para una supercomputadora), lo juzgará un fiasco en detrimento de los verdaderos éxitos en el campo, pasado y futuro. Este supuesto éxito ha perjudicado al campo y a los creadores posiblemente honestos del chatbot, cuya admisión abierta de que le habían dado el carácter de un niño extranjero de 13 años podría haber tenido como objetivo disminuir las expectativas de lo que podría lograr.

El error de afirmar que su ganador pasó la verdadera prueba de Turing como lo llamaron, e incluso llamarlo un hito, es difícil de disculpar, especialmente en vista del daño que podría causar al campo, y de hecho a los propios organizadores y a otros Eventos de prueba de Turing que ya habían tenido dificultades para distanciarlos de una actividad simplemente entretenida. En resumen, si se consideró que una prueba de Turing se aprobó hace 2 días, lo hizo por todas las razones equivocadas.

El profesor Warwick ha escrito en The Independent sobre las críticas en su defensa:

“… A los jueces no se les dijo que era un adolescente y Turing nunca sugirió que la inteligencia artificial tendría que hacerse pasar por un adulto, solo que engañó a la gente a pensar que era humana. Los jueces eran libres de hacer a los sujetos cualquier pregunta que les gustara en conversaciones sin restricciones, y Eugene era claramente capaz de defenderse ”.

Realmente … mantengo mi propuesta para poder pasar una prueba de Turing sin restricciones con este espíritu y escribir un chatbot que emule a un bebé de 2 meses. Qué poco sentido común para una prueba que debería haberse realizado impecable y que se afirma que tenía estándares muy altos. También aprendí que a los jueces se les permitía ser niños, entre otros, así que, una vez más, por qué no ponemos a los bebés como jueces, Turing nunca dijo nada en contra, el único requisito que Turing dijo explícitamente era tener expertos no informáticos.

Prefiero hacer una pregunta que requiera conectar ideas a través del tiempo de conversación, como “¿Qué dije sobre X en el momento Y de nuestra conversación?”, Donde X sería reformulado adicionalmente de alguna manera que solo una IA capaz de razonamiento temporal e interpretación semántica se desenredaría (asegurándose de que los humanos lo hagan). La mayoría de los chatbots fallan en los puntos de conexión en el tiempo de conversación y aún más al reformular algo que se dijo. Estoy sorprendido de que la mayoría de los jueces en las pruebas de Turing no hagan este tipo de preguntas mirando sus transcripciones y más bien hagan preguntas muy simples como tratar de ayudar a la IA a pasar la prueba porque estamos muy entusiasmados (pero haciendo que la prueba sea deshonesta y poco científica) ) Turing no limitó la complejidad de las preguntas a formular y no deberían estar en un verdadero experimento científico.

En mi humilde opinión, hay dos consideraciones: la inteligencia de las preguntas y la diversidad de experiencia de los jueces. Obviamente, los dos están relacionados. La diversidad de experiencia, lo que Scott Page llama “diversidad intelectual”, lleva a preguntas que son bastante diversas y son buenas pruebas para una IA de propósito general. Por ejemplo, un físico y un escultor harían diferentes tipos de preguntas. Creo que la inteligencia entra en juego en la inteligencia de las preguntas formuladas. Deben probar no solo los componentes de PNL sino también la capacidad de los sujetos para persistir a través de los cambios en el contexto. Por ejemplo, (olvido en qué película estaba esto), pero la pregunta, “una mujer camina por la calle y ve a un cachorro en una ventana. Se da cuenta de que lo quiere. ¿Qué quiere, el cachorro o la ventana? ” es una prueba de la capacidad de la IA para analizar y comprender el lenguaje. Si el juez luego hizo otras seis preguntas no relacionadas y luego regresó al cachorro, sería una prueba de la capacidad general de la IA para persistir a los sujetos a través de los límites contextuales. La inteligencia del juez afectará directamente la calidad de las preguntas formuladas y su aplicabilidad para probar la calidad de la IA. Esto lleva a una pregunta de seguimiento: ¿cómo se seleccionan los jueces? Hay un libro interesante sobre cómo es ser juez en una prueba de Turing; Se llama “El humano más humano” de Brian Christian.

More Interesting

¿Estaba mal que la comunidad de IA bromeara sobre el lanzamiento de la compañía RocketAI?

¿Qué trabajos realizados por las Cámaras del Congreso de EE. UU. Pueden ser mejor atendidos por AI?

¿Cómo se puede escribir un artículo realmente fuerte en el campo relacionado con la inteligencia artificial?

¿Una computadora podrá tomar una decisión consciente en un futuro cercano?

¿Cuál es la relación entre inferencia y transmisión de mensajes en el contexto del aprendizaje automático?

¿Cómo es útil el aprendizaje automático en el mundo real?

¿Cuál es la diferencia entre AI y Machine Learning Nanodegrees en Udacity?

Cómo hacer que un robot aprenda a caminar

Cómo comenzar a saber más sobre las redes neuronales

¿El uso de AI para editar y seleccionar fotos digitales eventualmente se generalizará?

¿Existe una métrica / escala definida para medir la inteligencia artificial de los videojuegos?

¿Cómo impacta la inteligencia artificial en el diseño de UX? ¿Será esta dinámica significativamente diferente en 5-10 años?

¿Funcionarán múltiples electrodomésticos en un sistema operativo uniforme en el futuro? o simplemente hay una necesidad de trabajar en esta dirección? ¿Si es así, entonces cómo?

En nuestro nivel de tecnología en computadoras y aviónica, o en un futuro próximo, ¿sería posible construir aviones transformables como un Veritech de Robotech (una Valquiria de Macross para puristas)? Si es posible, ¿sería práctico hacerlo?

¿Puedo usar la programación de expresión génica para desarrollar programas C ++?