¿Cuál es la mejor función de evaluación que se te puede ocurrir para el inverso del juego tic tac toe?

Básicamente, recrearía AlphaGo para InverseTTT.

Entonces, primero haga simulaciones usando MCTS puro.

Luego cree muestras de entrenamiento basadas en estos juegos que, dada una posición, predicen el próximo movimiento; y dada una posición predecir el resultado.

Luego, use estas muestras de entrenamiento para entrenar una red de políticas (dada la posición P del tablero, generar el próximo movimiento más probable) y una red de valores (dada una posición P, cuál es el resultado esperado del juego, una victoria o una pérdida).

Luego, usa su red de políticas aumentada con la red de valor MCTS + para jugar más juegos y luego volver a entrenar el sistema con estos juegos de autojuego más sofisticados.

Cada iteración de la red se vuelve más fuerte.

Tenga en cuenta que cada red solo tendría experiencia en una placa (por lo tanto, 3x3x3 pero no 3x3x4)

Probablemente no exista una heurística general para 3x3x3 a 1000x1000x1000, aunque es posible que incluso haya victorias forzadas para un jugador u otro según el tamaño del tablero. Tampoco tengo idea si hay posibilidades de sorteos, etc.

Related Content

¿Qué es un subgrafo predecesor?

¿Cómo medir la precisión del procesamiento del lenguaje natural? ¿Existe algún criterio estándar o aceptable para la industria?

Soy un estudiante de secundaria interesado en trabajar en la exploración espacial. ¿Qué puedo hacer ahora para prepararme?

Si suponemos que los humanos son una pizarra en blanco (Locke), ¿cuál es la diferencia entre nosotros y la máquina (inteligencia artificial)?

¿Cómo hacen los softwares OBD-ll?

¿Cuál es la relación entre el aprendizaje automático y la inteligencia empresarial?

¿Qué lenguajes de programación sugeriría para el back-end de un SAAS vertical financiero a gran escala? Est: 10,000 TB, 1 mil usuarios, actualización en tiempo real.

More Interesting

¿De qué forma Apple Watch devuelve datos de frecuencia cardíaca a las aplicaciones? ¿Cuál es la frecuencia y precisión de los puntos de datos?

Cómo aventurarse en el campo de la inteligencia artificial y el aprendizaje automático

¿Cuál es el propósito de un análisis amortizado?