Básicamente, recrearía AlphaGo para InverseTTT.
Entonces, primero haga simulaciones usando MCTS puro.
Luego cree muestras de entrenamiento basadas en estos juegos que, dada una posición, predicen el próximo movimiento; y dada una posición predecir el resultado.
- ¿Cuál es la función principal del núcleo en los sistemas operativos?
- ¿Cómo puedo escribir un script de shell para recuperar texto que se encuentra entre dos cadenas?
- A mayo de 2017, ¿cuál es el estado de la computación cuántica?
- ¿Alguien puede darme una explicación detallada sobre IoT (internet de las cosas)?
- ¿Cómo eliminar anuncios de mi computadora?
Luego, use estas muestras de entrenamiento para entrenar una red de políticas (dada la posición P del tablero, generar el próximo movimiento más probable) y una red de valores (dada una posición P, cuál es el resultado esperado del juego, una victoria o una pérdida).
Luego, usa su red de políticas aumentada con la red de valor MCTS + para jugar más juegos y luego volver a entrenar el sistema con estos juegos de autojuego más sofisticados.
Cada iteración de la red se vuelve más fuerte.
Tenga en cuenta que cada red solo tendría experiencia en una placa (por lo tanto, 3x3x3 pero no 3x3x4)
Probablemente no exista una heurística general para 3x3x3 a 1000x1000x1000, aunque es posible que incluso haya victorias forzadas para un jugador u otro según el tamaño del tablero. Tampoco tengo idea si hay posibilidades de sorteos, etc.