¿Pueden las redes neuronales convolucionales entrenarse para jugar al ajedrez realmente bien?

Es una pregunta bastante difícil de responder ya que creo que realmente depende del método de entrenamiento que se utilice.

En mi maestría. Tesis (https://www.researchgate.net/pub…) Propongo un nuevo algoritmo de aprendizaje supervisado que tiene como objetivo aproximar lo más posible la función de evaluación de Stockfish, uno de los motores de ajedrez más fuertes existentes (Open Source Chess Engine). Demuestro que si se conservan las propiedades geométricas de la representación de la placa (es decir, sin utilizar técnicas como la agrupación), los CNN pueden ser tan potentes como los Perceptrones multicapa (MLP). Además, tienen el beneficio principal que permite apilar diferentes capas de características que representan un tablero de ajedrez una tras otra, creando n tensores dimensionales que compensan fácilmente la conectividad completa de las entradas que caracteriza a los MLP.

Otro trabajo que muestra el uso potencial de las CNN en el ajedrez en una tarea de aprendizaje supervisado es propuesto por (https: //pdfs.semanticscholar.org…) donde los autores informan cómo se pueden usar las CNN para replicar los movimientos de los Grandes Maestros humanos. ¡También obtuvieron resultados bastante decentes!

No sé si las mismas arquitecturas funcionarían tan bien al utilizar algoritmos de aprendizaje de refuerzo profundo, pero parece que el programa AlphaZero de DeepMind logró hacerlo (https://arxiv.org/pdf/1712.01815…). Sin embargo, para saber más sobre la estructura de la ANN que han utilizado, tendremos que esperar al documento oficial.

Related Content

¿Cómo creo un conjunto de datos como MNIST para reconocer caracteres de otro idioma? Tengo un conjunto de datos como una carpeta de imágenes. ¿Cómo uso eso en Tensorflow?

¿Cuál es la diferencia entre el sistema de soporte de decisiones y el sistema de recomendaciones?

¿Qué opinas de Keras?

Supongamos que reuní a todos los usuarios de Twitter que escribieron tweets con las palabras "aprendizaje automático" en ellos (durante el último mes, por ejemplo), y luego construí un gráfico de red basado en sus seguidores. Además de las diversas medidas de centralidad, ¿qué otras técnicas podría utilizar para identificar a las mejores personas a seguir? ¿Cómo lo hace Klout?

¿Hay algún trabajo interesante en la clasificación utilizando la regresión logística bayesiana?

¿Qué es una WiFI social?

¿Qué ERP en la nube es el más adecuado y personalizado para las empresas de fabricación farmacéutica?

Hay intentos que intentan usar las técnicas de refuerzo profundo ya mencionadas para el ajedrez, que no son exactamente redes neuronales convolucionales, pero que podrían ser interesantes de verificar:

Deep Learning Machine se enseña ajedrez en 72 horas, juega a nivel internacional de maestría | MIT Technology Review

Zeeshan Zia

Que yo sepa, sería difícil.

Convnet se puede usar de manera efectiva en Q Learning cuando el comportamiento de acuerdo con la posición de un personaje es continuo. Por ejemplo, en el invasor espacial, si un enemigo está en una posición [matemática] (x, y) [/ matemática], la reacción del jugador será muy similar a su reacción si el enemigo está en la posición [matemática] (x + 1 , y) [/ math].
Para el ajedrez, marcaría una gran diferencia (reina inofensiva en un caso, y chessmate en el otro).

Un tablero de ajedrez es discreto y, lo que es más importante, un pequeño movimiento de una pieza implica completar diferentes situaciones.

Puede haber una forma de presentar sus características de entrada de una manera que se adapte mejor a las convnets, pero probablemente sea muy difícil imaginar cómo.

Zeeshan Zia

No, no pueden. Jugar al ajedrez requiere muchas habilidades de razonamiento, que no tiene un convnet.

DeepMind presentó recientemente su documento innovador sobre el aprendizaje de refuerzo profundo, donde pueden aprender a jugar juegos relativamente simples. Pero incluso esa técnica no puede aprender un juego complejo como el ajedrez en el que debes pensar en muchos pasos y configuraciones que aumentan exponencialmente. Aquí está la versión más reciente de esa línea de trabajo:

Página en nature.com

Zeeshan Zia

More Interesting

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?

¿Cuál es el papel de un neurocientífico en el desarrollo de inteligencia artificial?

¿No tener datos temporales en el vector de entrada hace que un RNN-LSTM sea inútil en comparación con otros NN si su salida es una secuencia temporal?

¿Cuál es la mejor hoja de ruta para aprender el aprendizaje automático usando Python?

¿Cuál es la ventaja de combinar la red neuronal convolucional (CNN) y la red neuronal recurrente (RNN)?

¿Cómo puedo demostrar que si no escalo las características antes de aplicar el descenso de gradiente, disminuirá la convergencia?

¿Cómo está estudiando Conner Davis el aprendizaje automático?

¿Cuál es la desventaja de usar ADVI?

¿Es el enlace neuronal una tecnología que podría funcionar?

¿Cómo se pueden adaptar los sistemas de recomendación para recomendar elementos que atraigan a todos en un grupo, en lugar de a un solo individuo?

¿Qué es el 'aprendizaje automático de crowdsourcing'?

Cómo usar Azure Machine Learning para la clasificación de documentos

¿Cuáles son las principales aplicaciones de aprendizaje profundo en centros de datos?

Cómo eliminar una fila completa de un conjunto de datos si encuentro entradas faltantes en R

Web Analytics