AlphaZero aplasta a Stockfish en un match de 1.000 partidas
Después del terremoto inicial que causó AlphaZero en diciembre del año pasado, la compañía de inteligencia artificial DeepMind hoy ha publicado los asombrosos resultados de una versión actualizada del proyecto ajedrecístico de aprendizaje mecanizado.
Una vez más, los resultados no dejan lugar a dudas de que AlphaZero juega el mejor ajedrez del mundo.
La versión actualizada de AlphaZero vapuleó a Stockfish 8 en un nuevo match de 1000 partidas, con un marcador de +155 -6 =839. (Mira más abajo los análisis de Stockfish 10 y los vídeos grabados por el Maestro Luisón.)
AlphaZero también venció a Stockfish en una serie de matches con ventaja de tiempo, superando al módulo tradicional incluso dándole ventaja temporal de 10 a 1.
En matches adicionales, el nuevo AlphaZero venció a la "última versión de desarrollo" de Stockfish con un marcador prácticamente idéntico al del match contra Stockfish 8, según DeepMind. El comunicado de prensa, del 7 de diciembre de 2018, no especifica exactamente qué versión de desarrollo se utilizó.
[Actualización: El lanzamiento de hoy del artículo completo especifica que el match se celebró contra la última versión de desarrollo de Stockfish del 13 de enero de 2018, que era Stockfish 9.]
El módulo de aprendizaje mecanizado también ganó matches contra "una variante de Stockfish que use un libro de aperturas fuerte" según DeepMind. Añadir el libro de aperturas sí pareció ayudar a Stockfish, que finalmente ganó un número considerable de partidas con las blancas, pero no las suficientes como para ganar el match.
Los resultados de AlphaZero (victoriqas en verde y derrotas en rojo) contra la última versión de Stockfish y contra Stockfish con un fuerte libro de aperturas. Imagen de DeepMind tomada de Science.
Los resultados se publicarán en un artículo que los investigadores de DeepMind publicarán en la revista Science y que DeepMind ofreció a una selección de medios de comunicación. DeepMind tiene su sede en Londres y es propiedad de Alphabet, la empresa matriz de Google.
El match de 1000 partidas se jugó a principios de 2018. En el match, tanto AlphaZero como Stockfish tuvieron tres horas cada uno más un incremento de 15 segundos por jugada. Este control de tiempo parece dejar obsoleto uno de los mayores argumentos contra el impacto del match del año pasado: que el control de tiempo de un minuto por jugada de 2017 jugó en contra de Stockfish.
Con las tres horas más un incremento de 15 segundos, no se puede mantener tal argumento, pues es una cantidad de juego enorme para cualquier módulo. En las partidas con ventaja de tiempo, AlphaZero dominó hasta la ventaja de 10 a 1. Stockfish solo empezó a superar a AlphaZero cuando su ventaja llegó a 30 a 1.
Los resultados de AlphaZero (victorias en verde, derrotas en rojo) contra Stockfish 8 en los matches con ventaja de tiempo. Imagen de DeepMind tomada de Science.
Los resultados de AlphaZero en los matches con ventaja de tiempo sugieren que no solo es mucho más fuerte que ningún otro módulo tradicional, sino que también usa una búsqueda por movimientos mucho más eficaz. Según DeepMind, AlphaZero usa el Árbol de Búsqueda Monte Carlo y examina unas 60.000 posiciones por segundo, a diferencia de los 60 millones que examina Stockfish.
Una ilustración de cómo AlphaZero busca las jugadas de ajedrez. Imagen de DeepMind tomada de Science.
¿Qué conclusión pueden sacar los fans del ajedrez entre computadoras al leer estos resultados? Que AlphaZero ha consolidado su estatus como uno de los jugadores de élite en el mundo. Pero los resultados son aún más intrigantes si sigues la habilidad de la inteligencia artificial para dominar el juego en general-
Según el artículo de la revista, el algoritmo actualizado de AlphaZero es idéntico en tres juegos: ajedrez, shogi y go. Esta versión de AlphaZero ha logrado vencer a los mejores módulos informáticos de los tres juegos tras apenas unas pocas horas de aprendizaje autodidacta, partiendo tan solo de las normas básicas de los juegos.
Los resultados actualizados de AlphaZero llegan exactamente un año después de que DeepMind desvelara los primeros resultados históricos de AlphaZero en un match sorpresa contra Stockfish que cambió el ajedrez para siempre.
Desde entonces, un proyecto de código abierto llamado Lc0 ha tratado de replicar el éxito de AlphaZero, y el proyecto ha fascinado a los fans del ajedrez. Lc0 ahora está compitiendo con el campeón Stockfish y con los mejores módulos del mundo en el Computer Chess Championship de Chess.com.
Los fans del CCC se alegrarán de ver que en algunas nuevas partidas de AlphaZero hay "peones cervatillos", que es el mote que se les dio en el chat del CCC a los peones avanzados solitarios que limitan la posición del oponente. Quizá el establecimiento de estos peones sea una estrategia crítica para ganar, pues parece que AlphaZero y Lc0 lo han aprendido de manera independiente.
DeepMind publicó 20 partidas de muestra elegidas por el GM Matthew Sadler de las 1000 partidas del match. Chess.com ha seleccionado tres de estas partidas con un análisis profundo de Stockfish 10 y te ofrecemos un análisis en vídeo (en inglés) del GM Robert Hess. Puedes descargar las 20 partidas de muestra al final de este artículo analizadas por Stockfish 10 y cuatro partidas de muestra analizadas por Lc0.
Actualización: Tras la publicación de este artículo, DeepMind publicó 210 partidas de muestra que puedes descargar aquí.
We are also releasing 210 new chess games - including a top 20 selected by GM Matthew Sadler @gmmds - that show off its dynamic playing style and we hope will inspire chess players of all levels around the world. https://t.co/ZJDoaon5z0
— DeepMind (@DeepMindAI) December 6, 2018
"También hemos publicado 210 nuevas partidas de ajedrez, que incluyen una selección de las 20 mejores según el GM Matthew Sadler, que demuestran su estilo de juego dinámico y que esperamos que inspire a los ajedrecistas de todos los niveles y de todos los rincones del mundo".
Partida seleccionada 1 con análisis de Stockfish 10:
Partida seleccionada 2 con análisis de Stockfish 10:
Vídeo análisis de la partida 2 por el Maestro Luisón:
Partida seleccionada 3 con análisis de Stockfish 10:
Vídeo análisis de la partida 3 por el Maestro Luisón:
Partida seleccionada 4 con análisis de Stockfish 10:
Vídeo análisis de la partida 4 por el Maestro Luisón:
La nueva versión de AlphaZero se enseñó a sí misma a jugar ajedrez partiendo solo de las reglas del juego, usando técnicas de aprendizaje mecanizado para actualizar constantemente sus redes neuronales. Según DeepMind, se usaron 5.000 TPU (la unidad de procesamiento por tensores de Google, un circuito integrado de aplicación específica para la inteligencia artificial) para generar el primer grupo de partidas de juego en solitario, y luego se usaron 16 TPU para entrenar a las redes neuronales.
El tiempo total de entrenamiento en el ajedrez fue de nueve horas desde cero. Según DeepMind, A AlphaZero le llevó solo cuatro horas de entrenamiento sobrepasar a Stockfish, y tras nueve horas le sacaba mucha ventaja al módulo campeón mundial.
Para las propias partidas, Stockfish usó 44 núcleos de CPU (unidades de procesamiento central) y AlphaZero usó una sola máquina con cuatro TPU y 44 núcleos de CPU. Stockfish tenía un tamaño de hash de 32GB y usó tablas de finales syzygy.
Los resultados de AlphaZero frente a los de Stockfish en las aperturas más populares entre humanos. En la barra de la izquierda, AlphaZero juega con blancas; en la barra de la derecha, AlphaZero juega con negras. Imagen de DeepMind tomada de Science. Haz clic en la imagen para aumentarla.
Las partidas de muestra publicadas han sido calificadas de impresionantes por los ajedrecistas profesionales que han tenido un acceso preliminar a ellas. Según el GM Robert Hess, estas partidas son "inmensamente complicadas".
Los propios DeepMind señalaron el estilo único de su creación en el artículo:
"En varias partidas, AlphaZero sacrificó piezas por una ventaja estratégica a largo plazo, sugiriendo que tiene una evaluación posicional más fluida y dependiente del contexto que las evaluaciones basadas en reglas que usan los módulos de ajedrez anteriores" dijeron los investigadores de DeepMind.
La compañía de IA también enfatizó la importancia de usar la misma versión de AlphaZero en tres juegos distintos, lo cual es un avance enorme para la inteligencia del juego en general:
"Estos resultados nos acercan un paso más a cumplir una ambición de hace mucho tiempo de la inteligencia artificial: un sistema de juego en general que puede aprender a dominar cualquier juego" dijeron los investigadores de DeepMind.
I couldn't help but be pleased that AlphaZero plays in open, dynamic style. It's not just my style, but it's not the incomprehensible maneuvering we feared computer chess would become. My @sciencemagazine article: https://t.co/ftcKzYTsw0 https://t.co/85h44ebCrS
— Garry Kasparov (@Kasparov63) December 6, 2018
"No pude evitar alegrarme de que AlphaZero juegue en un estilo abierto y dinámico. No solo es mi estilo, sino que no es la maniobra incomprensible en la que temíamos que se convertiría el ajedrez de ordenador". Aquí mi artículo en la revista Science".
Puedes descargar las 20 partidas de muestra que ha publicado DeepMind analizadas por Chess.com con Stockfish 10 en un ordenador potente. El primer grupo de partidas contiene 10 partidas sin libro de aperturas, y el segundo grupo contiene partidas con aperturas del TCEC (Top Chess Engine Championship) de 2016.
20 partidas analizadas por Stockfish 10:
4 partidas seleccionadas analizadas por Lc0:
¿Te encanta AlphaZero? Ahora puedes ver jugar al proyecto de aprendizaje mecanizado de ajedrez que inspiró, Lc0, en el Computer Chess Championship.