¿Hay alguna alternativa a la prueba de Turing?

¿Existe una prueba completamente objetiva para la comprensión automática de la semántica del lenguaje natural?

No lo creo. El problema es que la semántica no siempre es clara. Cuando los humanos hablan, depende en gran medida del contexto, la pronunciación y los factores “difusos”. Podría definir un conjunto de preguntas que una máquina tendría que responder y podría decir que es posible que la máquina no haya visto esas preguntas antes (así que no permita la codificación rígida). Pero entonces los humanos tendrían que juzgar qué tan buenas eran las respuestas. Creo que eso sería menos subjetivo.

¿Existen alternativas a la prueba de Turing para evaluar qué tan bien una máquina entiende la semántica del lenguaje natural en una conversación?

Seguro. Tome cualquier sistema similar a un foro con un sistema de votación (Quora, StackOverflow, Facebook, …). Si la máquina puede obtener una alta relación votos / publicación, es muy probable que sea bueno para comprender la semántica del lenguaje natural. Pero eso solo sería una versión más grande y productiva de la prueba de Turing.

No hay alternativa a la prueba de Turing, pero hay pruebas de Turing alternativas.

La prueba de Turing es el nombre de una prueba específica en la que las IA se libran contra los humanos, por lo que la opinión es el resultado y el objetivo. Pero su interpretación del resultado como “opinión” es innecesaria, porque en términos de computación, lo que los humanos realmente están haciendo es “computar” por sí mismos si su corresponsal es una IA. Así que estamos probando si una IA engañará la computación humana, no la opinión.

Para las mediciones, podríamos realizar la prueba en múltiples sujetos para obtener un porcentaje:

AI 1 engañado 29/100.
AI 2 engañado no engañó a nadie.
AI 3 engañó 79/100.

Nuestro rendimiento: AI 3 mide mejor que AI 1 y AI 2. Este es un resultado objetivo, similar a los utilizados en ensayos médicos.

Como puede ver, las pruebas están definidas, y también las mediciones. No hay necesidad de limitarse con lo que puede sentir que es la interpretación correcta o incorrecta a menos que funcione. Y si los resultados pueden usarse como evidencia de lo que estamos por demostrar, la prueba tiene valor.

Lo que debe entenderse e interpretarse es el espíritu de la prueba, que depende de los conceptos e intuiciones involucrados, así como de la intención original del creador. Luego, la prueba debe diseñarse e implementarse físicamente, lo que en sí mismo es un proceso con resultados únicos.

Recientemente hubo grandes titulares de que una computadora pasó la prueba de Turing. Sin embargo, la IA era en realidad un scriptbot que hacía más fácil engañar a sus sujetos haciéndose pasar por un niño tonto. Muchos han afirmado fácilmente que esta versión de la prueba no honró el espíritu de las intenciones iniciales de Alan Turing, y la evidencia obtenida se ha utilizado para respaldar esta afirmación, en lugar de cualquier hecho de que una IA ha alcanzado un nuevo hito. La afirmación ajustada es un resultado directo de los defectos de diseño de esta prueba de Turing en particular.

Así que ahora, al ajustar el diseño de la Prueba, podemos esperar obtener los resultados que realmente estábamos buscando: descubrir lo que se necesita para que AI tenga una conversación inteligente.


[ref] ¿Una computadora finalmente pasó la prueba de Turing? Las señales apuntan a ‘no’.

Hay una alternativa simple propuesta por Lotfi Zadeh, el tipo que inventó la lógica difusa: darle a la IA una página de texto, pedirle que la resuma en un párrafo. Esta tarea requiere cierto nivel de comprensión en lugar de trucos.

Puede discutir sobre los detalles, pero básicamente QED.

Una alternativa a la prueba de Turing: se anuncia la competencia anual ‘Winograd Schema Challenge’

Lea también: Página en toronto.edu

¿Medibles de qué? Si el otro lado es humano? Si el otro lado es capaz de “pensar”?

Google está introduciendo actualmente mediciones de los movimientos del mouse en Captchas, que son pruebas de Turing. Esa es una “medida” en lugar de una “opinión”. Sin embargo, no significa que sea correcto si eso es lo que esperabas. Todavía es solo una suposición.

La prueba de Turing no es un juego sobre la separación de humanos de máquinas. Alan Turing estaba tratando de definir el “pensamiento” de una manera que no excluye automáticamente a los no humanos (o no hombres) de poder realizarlo. No estamos buscando replicantes fuera de control. Si eso es lo que quiere hacer, la respuesta es simple: simplemente investigue el mecanismo (para la versión hombre-máquina de la prueba) o los órganos reproductivos (para la versión hombre-mujer de la prueba de Turing).

Ben Goertzel sugiere dos pruebas adicionales: la prueba de café y la prueba de robot universitario.

La prueba de café:

Una máquina tiene la tarea de entrar en un hogar estadounidense promedio y descubrir cómo hacer café. Tiene que encontrar la máquina de café, encontrar el café, agregar agua, encontrar una taza y preparar el café presionando los botones correspondientes.

La prueba de Robot College Student:

A una máquina se le da la tarea de inscribirse en una universidad, tomar y aprobar las mismas clases que los humanos, y obtener un título.

Pasar la prueba de Turing ya no es un gran desafío. En cualquier momento, la gente cree que, en principio, es realmente fácil duplicar la inteligencia y realmente solo nos falta un pequeño paso.
La prueba de Turing es el hijo de esa creencia, un momento en el que se pensaba que tan pronto como las computadoras podían tener 100 MB de almacenamiento, la inteligencia a nivel humano era inminente o alcanzada, ya que 100 MB son suficientes para almacenar una enciclopedia, y el conocimiento de una enciclopedia es lo que hace a un humano inteligente, ¿verdad? Entonces, solo tíralo y listo.

De las mismas suposiciones sobre lo que constituye exactamente la inteligencia humana se sigue el razonamiento de que tan pronto como una computadora puede convencer a un humano normal de que es inteligente, es inteligente.

Ahora sabemos que la inteligencia es mucho, mucho más, por lo que ningún investigador de IA moderno propondría algo como la Prueba de Turing y esperaría que produjera o midiera algo significativo. Es un sello elegante y no descriptivo que puedes poner en tu chat-bot, nada más.

En cuanto a qué medidas serían significativas, no lo sé. Si un sistema muestra una “comprensión” real y emergente del lenguaje, entonces me parece al menos un poco inteligente. Las redes semánticas parecen hacer eso, pero son difíciles de producir y mantener. En las últimas semanas me metí en la investigación de Tomas Mikolov y su investigación sobre la inclusión de palabras, lo cual es realmente interesante. Puede consultar sus documentos más famosos para obtener más información, el hecho que me atrajo fue que sus representaciones vectoriales de palabras podrían usarse de alguna manera, que
(incrustación (Rey) – incrustación (Hombre)) + incrustación (Mujer)
conduciría a un vector más cercano a la incrustación observada de Queen. Eso es realmente algo, y todo a través del aprendizaje no supervisado.