¿Cuál es la mejor función de evaluación que se te puede ocurrir para el inverso del juego tic tac toe?

Básicamente, recrearía AlphaGo para InverseTTT.

Entonces, primero haga simulaciones usando MCTS puro.

Luego cree muestras de entrenamiento basadas en estos juegos que, dada una posición, predicen el próximo movimiento; y dada una posición predecir el resultado.

Luego, use estas muestras de entrenamiento para entrenar una red de políticas (dada la posición P del tablero, generar el próximo movimiento más probable) y una red de valores (dada una posición P, cuál es el resultado esperado del juego, una victoria o una pérdida).

Luego, usa su red de políticas aumentada con la red de valor MCTS + para jugar más juegos y luego volver a entrenar el sistema con estos juegos de autojuego más sofisticados.

Cada iteración de la red se vuelve más fuerte.

Tenga en cuenta que cada red solo tendría experiencia en una placa (por lo tanto, 3x3x3 pero no 3x3x4)

Probablemente no exista una heurística general para 3x3x3 a 1000x1000x1000, aunque es posible que incluso haya victorias forzadas para un jugador u otro según el tamaño del tablero. Tampoco tengo idea si hay posibilidades de sorteos, etc.

More Interesting

¿De qué forma Apple Watch devuelve datos de frecuencia cardíaca a las aplicaciones? ¿Cuál es la frecuencia y precisión de los puntos de datos?

Cómo aventurarse en el campo de la inteligencia artificial y el aprendizaje automático

¿Cuál es el propósito de un análisis amortizado?

¿Cuál es la explicación laica del problema de la satisfacción booleana?

¿Cómo puedo obtener la representación de cadena de un objeto en C ++ (es decir, qué se imprimiría haciendo cout << objeto)?

¿Vale la pena la escuela de verano Wolfram si no te gusta el libro "Un nuevo tipo de ciencia"?

¿Qué tipos de archivos no son vulnerables a los virus informáticos?

Aplicaciones móviles: ¿Es difícil admitir el chat de video y escritura de texto al mismo tiempo en dispositivos de teléfonos inteligentes?

¿Cómo funciona exactamente un protocolo proxy ARP? ¿Funciona para dos ubicaciones remotas?

¿Cuál es la aplicación de las estadísticas en informática?

¿Cuál es el mejor entrenamiento de aprendizaje automático en Bangalore?

¿Cuáles son algunas estrategias para hacerlo bien en 6.01 en MIT?

Sé que las máquinas solo pueden entender 1s y 0s. ¿Alguien puede ayudar a comprender cómo se almacenan y recuperan las imágenes, los videos y todo lo demás en fracciones de segundos cuando una máquina puede entender solo 1s y 0s?

¿En qué deportes (tenis, voleibol, golf) es más difícil entrenar a un robot para ser bueno?

¿Cómo puedo encontrar si existe una coincidencia perfecta en un gráfico G?