¿Los límites de tiempo más largos favorecen a los humanos o las computadoras en una partida Go?

En el caso Lee vs AlphaGo, creo que aumentar los límites de tiempo a una extensión razonable (como duplicar o triplicar, pero no hacerlo por 1 mes) favorecería a Lee.

La ventaja y la escasez de AG fueron obvias en el primer partido: funcionó excepcionalmente bien en tácticas pero aún era muy pobre en estrategia. Lee obtuvo una gran ventaja de los movimientos de AG de # 42, # 48 y # 80, que fueron los mejores movimientos en el área local, pero tuvieron poco valor para la situación general de la junta. Sin embargo, la ventaja de Lee se revirtió cuando cometió varios errores al luchar en la esquina inferior derecha y en la esquina superior derecha, cuando se determinó la situación general y cada área pequeña era independiente de las demás.

Esto, creo, significa que DeepMind no es realmente tan profundo: AG tiene la capacidad de encontrar el mejor movimiento en una cuadrícula pequeña (como 12 × 12) pero no puede evaluar el valor de un movimiento en una situación de tablero completo. Su red de políticas es mejor que un jugador humano de 9 dan pero su red de valor está por debajo de cualquier pro dan.

La complejidad del cálculo crece en orden exponencial según el tamaño de la cuadrícula. Entonces, si se le da a AG un doble tiempo, la mejora de la capacidad de la estrategia es menor. La mejora en las tácticas también es pequeña porque ya lo estaba haciendo casi perfecto.

Por el contrario, duplicar el tiempo permitido reduciría en gran medida la posibilidad de que Lee cometa errores.

En términos generales, evaluaría a ambos jugadores de la siguiente manera:

capacidad total = capacidad de estrategia + mejor capacidad táctica * (1 – posibilidad de error)

Para Lee, es 90 + 90 * 50% = 135

Para AG, es 50 + 95 * 100 = 145

Con doble tiempo, serían:

Lee: 90 + 90 * 70% = 153

AG: 55 + 95 * 100 = 145 = 150

Esto depende de la heurística codificada en la computadora.

En ultra relámpago, la capacidad de la computadora para lanzar un movimiento consistente en unos segundos o milisegundos es buena para algunas victorias incluso contra un oponente más fuerte.

En el bombardeo, la intuición humana domina, aún, si está preguntando sobre el juego de nivel profesional. Los aficionados como yo todavía pueden ser destruidos por la última generación de bots de monte carlo, jugando bastante bien bastante rápido. Puede ser un poco menos problemático para alguien configurar una computadora para que venga con limitaciones de tiempo que cada uno de sus oponentes aprendiendo la gestión del tiempo.

Con una cantidad moderada de tiempo, puede ser uniforme. Sin embargo, muchos algoritmos ya se habrán agotado sin ganancias significativas en la calidad del juego por tiempo adicional. Si hay tales ganancias, se invertirían núcleos de procesador adicionales.

Los partidos largos creo que ayudan a los humanos, pero a nivel profesional donde ya evitan errores, tal vez lo contrario (la fatiga y las recompensas de la minuciosidad de la máquina escalan bien).

Sobre el calendario, la colaboración humana y otras cualidades podrían verse favorecidas. No conocemos muchos algoritmos que converjan de manera inteligente en una respuesta. Parches de dominio darían paso a “no hecho” y “misma respuesta que antes”

En escalas de tiempo extremas, como las tetraciones de la vida útil del universo, la computadora ejecuta con éxito el algoritmo de fuerza bruta. Eones después, nuestros monjes también terminan. El movimiento divino es conocido.

(escrito en ignorancia del resultado del día)

No es una respuesta directa.

Las computadoras no cometen errores (del tipo de movimiento 1 a 2)

Con plazos muy cortos, eso funciona a su favor. Las computadoras tampoco pueden intuir un movimiento, pero la capacidad de evitar un error más que equilibrarlo.

Entonces, lo que obtienes es una especie de curva de campana. Los límites de tiempo muy cortos favorecen a la computadora, y a medida que aumenta el límite de tiempo, la posibilidad de que un humano cometa un error se acerca a cero, y verá que el límite de tiempo favorece al humano.

Los límites de tiempo más largos también permiten que los humanos y las computadoras tengan más tiempo para calcular, pero hay un límite máximo para los humanos. Pasado ese punto, se hace difícil concentrarse. Una vez que se acerque a ese límite, verá que el límite de tiempo cambia de nuevo a favor de la computadora.

Las computadoras son muy consistentes. Al trazar un gráfico de resultado vs tiempo para computadoras no se obtiene exactamente una línea recta, pero se obtendría una curva muy suave (debido a la ley de rendimientos decrecientes)

Sin embargo, para los humanos, el gráfico de resultado vs tiempo aumentaría abruptamente hasta el punto en que los humanos no cometerán un error, donde verían que la pendiente comienza a disminuir.

Entonces, ¿de qué lado los límites de tiempo se verían así?

Computadora → Humano → Computadora

Con límites de tiempo más largos, las computadoras tendrán una ventaja. Para las computadoras, más tiempo significa que se pueden investigar más nodos en su árbol de búsqueda (o se pueden ver más muestras). Pueden almacenar todos los resultados parciales en su memoria.

Un humano, por otro lado, tiene un cerebro biológico que tiene límites sobre cómo puede usar la memoria. Un jugador no suele decir “oh, tengo dos horas para pensar en mi movimiento en lugar de 10 minutos, así que miraré 20 posibles ramas e investigaré todas hasta una profundidad de 5 nodos” o algo así. Se necesita mucho enfoque y control para hacer un buen uso del tiempo. Esto es una gran parte de lo que hace que los mejores jugadores sean mejores: tienen un mejor control sobre sus mentes que los aficionados. Pueden leer rápidamente una secuencia, luego leer alternativas y comparar los resultados. Yo, por mi parte, habría olvidado el resultado de la primera secuencia larga al leer la segunda.

Los jugadores humanos tienen una fuerte intuición de dónde buscar primero los posibles buenos movimientos. Dados límites de tiempo más cortos, esto funciona bien. Dados límites de tiempo más largos, a los jugadores más fuertes les irá mejor, pero carecen del enfoque estructurado que un jugador de computadora puede adoptar.

AlphaGo acaba de ganar 60 juegos seguidos contra los mejores jugadores del mundo, incluidos varios juegos contra los jugadores clasificados # 1 y # 3 del mundo, y jugó menos de 5 segundos por jugada durante todo el juego.

AlphaGo regresa actualizado, gana 60 juegos seguidos en línea | ZDNet

Por lo tanto, los límites de tiempo cortos definitivamente parecen ser suficientes para que AlphaGo funcione bien.

Si todo lo demás es igual, los límites de tiempo más largos probablemente beneficien a los humanos más de lo que beneficia a una computadora Go con la fuerza adecuada. La razón es que el tiempo adicional solo proporciona una mejora muy pequeña en la fuerza de los bots, ya que solo aumenta ligeramente la certeza de los lanzamientos, pero el humano puede descubrir un movimiento extremadamente improbable que le da una posición ganada, o la computadora Go puede tropezar con un movimiento eso sería pasado por alto por el humano, pero garantiza una pérdida para la computadora Go y, por lo tanto, podría comenzar a equivocarse al “empujar el movimiento por el horizonte”.

More Interesting

¿Necesito aprender codificación para trabajar en IA? Además de la codificación, ¿hay otras áreas dentro del campo que uno pueda explorar sin ser necesariamente un codificador?

Rober Ambrogi: ¿Podría Watson de IBM hacer obsoletos a los testigos expertos?

¿Cuál es la principal diferencia entre el aprendizaje profundo y el aprendizaje automático?

¿Qué tan pronto los robots reemplazarán la mano de obra en trabajos físicos de alta habilidad como la construcción?

¿Cuál es el estado actual y el futuro de los agentes digitales / humanos virtuales?

¿Cuál es el mejor lenguaje para el aprendizaje automático?

¿Qué podemos aprender de Tay, el reciente tweet de inteligencia artificial de Microsoft? ¿Qué salió mal?

¿Cómo se relaciona Kalman Filter con la robótica?

¿Cuál es la diferencia clave entre el aprendizaje supervisado y el no supervisado? ¿Por qué es más fácil hacer un aprendizaje supervisado (necesito pruebas matemáticas)?

Conflictos geopolíticos: ¿tiene sentido que si los humanos se encuentran ahora en las primeras etapas de desarrollo de la IA, algunos seres en otros planetas lejanos ya sean seres con IA?

¿Cómo identifican las máquinas los objetos de la imagen?

¿Cuál es la diferencia entre el aprendizaje semi-supervisado y el aprendizaje híbrido supervisado-no supervisado?

Cómo crear una IA como Siri o JARVIS

¿Lloyd Pye aborda el hecho de que una civilización avanzada podría extraer su propio oro sin esclavos utilizando Ai y equipos industriales?

¿Cuál es la prueba de que la iteración de políticas converge en el aprendizaje por refuerzo?