Новая версия AlphaZero разгромила Stockfish в матче из 1,000 партий
DeepMind, компания-разработчик искусственного интеллекта AlphaZero, ушедшая в тень на год после первой ошеломительной публикации в прошлом декабре, опубликовала потрясающий воображение отчет о новой версии своего проекта машинного обучения.
Все вопросы сняты: AlphaZero является самым сильным шахматистом мира.
Обновленная AlphaZero разгромила Stockfish 8 в новом матче из 1,000 партий со счетом +155 -6 =839. (Далее в статье: три партии матча с анализом Stockfish 10 и видео-анализом МГ Роберта Хесса.)
AlphaZero также победила Stockfish в серии матчей с дачей форы по времени. Она выигрывала у обычной компьютерной программы, даже оставив себе в десять раз меньше времени на обдумывание.
В дополнительных матчах новая AlphaZero победила "последнюю разрабатываемую версию" Stockfish почти с тем же результатом, что и в матче со Stockfish 8. В окончательной версии статьи указано, что AlphaZero играла против последней разрабатываемой версии Stockfish на 13 января 2018, то есть, Stockfish 9.
Машинно обучаемая программа также выиграла все матчи у "варианта Stockfish, который, по сообщению DeepMind, использует сильную дебютную книгу". Дебютная книга помогла Stockfish, наконец, выиграть довольно много партий белыми—но этого было недостаточно, чтобы выиграть матч.
Результаты AlphaZero (победы зеленым, поражения красным) против последней версии Stockfish (вверху) и Stockfish с сильной дебютной книгой (внизу). Изображение предоставлено DeepMind и Science.
Отчет будет опубликован в статье издания Science, но он заранее был предоставлен избранным шахматным СМИ разработчиками из DeepMind, компании, работающей в Лондоне и принадлежащей Alphabet, холдингу, который владеет и Google.
Матч из 1,000 партий проводился в начале 2018 года. AlphaZero и Stockfish давалось по три часа на партию каждой с добавлением 15 секунд на ход. Выбранный контроль времени позволил отбросить в сторону один из самых веских доводов против значимости прошлогоднего матча: якобы, контроль времени по минуте на ход, применявшийся в 2017 году, был невыгоден для Stockfish.
Три часа на партию с добавлением 15 секунд не оставляют места для подобных споров. Это количество времени огромно для любого компьютерного движка. В партиях с форой по времени AlphaZero доминировала даже при соотношении времени 10-1. Stockfish добился преимущества в счете, только получив в 30 раз больше времени на обдумывание.
Результаты AlphaZero (победы зеленым, поражения красным) против Stockfish 8 в партиях с форой по времени. Изображение предоставлено DeepMind и Science.
Результаты AlphaZero в партиях с форой по времени свидетельствуют о том, что она не только играет намного сильнее любой традиционной шахматной программы, но и также ищет ходы намного более эффективным образом. По сообщению DeepMind, AlphaZero использует поиск по дереву Монте-Карло, изучая около 60,000 позиций в секунду в сравнении с 60 миллионами, которые оценивает Stockfish.
Поиск ходов программой AlphaZero. Изображение предоставлено DeepMind и Science.
К какому выводу могут прийти любители компьютерных шахмат на основании этих результатов? AlphaZero укрепила свой статус сильнейшего шахматиста в мире. Причем, все выглядит еще интереснее, если учесть, что искусственный интеллект умеет играть не только в шахматы.
Согласно статье, обновленный алгоритм AlphaZero одинаков для трех настольных игр: шахмат, сёги и го. Эта версия AlphaZero смогла победить сильнейших компьютерных противников во всех трех играх всего лишь через несколько часов самообучения, начав со знания базовых правил игры.
Обновленные результаты AlphaZero были опубликованы точно через год после того, как компания DeepMind опубликовала первый отчет о результате матча AlphaZero против Stockfish, навсегда изменившего мир шахмат.
С тех пор возник проект Lc0 на основе открытого кода, который попытался повторить успех AlphaZero и уже сумел восхитить болельщиков шахмат. Теперь Lc0 соревнуется наряду с чемпионом Stockfish и другими сильнейшими в мире движками в непрерывно идущем чемпионате Chess.com среди компьютерных программ.
Фанаты CCC будут рады видеть в некоторых новых партиях AlphaZero "пешки-олешки", как в чате CCC называют далеко продвинутые изолированные пешки, которые сковывают действия противника. Возможно, создание таких пешек - основа идеальной победной стратегии в шахматах, потому что этот прием независимо друг от друга открыли AlphaZero и Lc0.
Компания DeepMind опубликовала 20 партий, отобранных МГ Мэтью Садлером из 1,000 сыгранных партий. Chess.com выбрал для публикации в статье три партии с подробным анализом Stockfish 10 и видеоанализом МГ Роберта Хесса. По ссылке под статьей вы можете загрузить 20 партий, проанализированных Stockfish 10, и четыре партии, проанализированные Lc0.
Дополнение: Уже после опубликования статьи, DeepMind опубликовала 210 партий, которые можно загрузить здесь.
We are also releasing 210 new chess games - including a top 20 selected by GM Matthew Sadler @gmmds - that show off its dynamic playing style and we hope will inspire chess players of all levels around the world. https://t.co/ZJDoaon5z0
— DeepMind (@DeepMindAI) December 6, 2018
Партия 1 с анализом Stockfish 10:
Партия 2 с анализом Stockfish 10:
Видео МГ Роберта Хесса c анализом второй партии:
Партия 3 с анализом Stockfish 10:
Видео МГ Роберта Хесса c анализом третьей партии:
ММ Анна Рудольф также записала видео с анализом одной из партий, назвав ее "Жемчужиной AlphaZero".
Новая версия AlphaZero самостоятельно обучалась шахматам, начиная с правил игры в качестве отправной точки, с использованием техник машинного обучения для развития нейронной сети. По словам DeepMind, для создания первого массива партий для самообучения использовались 5,000 ТПУ, (тензорных процессоров - специализированных интегральных схем для работы искусственного интеллекта), потом тренировка нейросети продолжилась на 16 ТПУ.
Общее время обучения шахматам составляло девять часов с нуля. По словам DeepMind, новой AlphaZero потребовалось всего четыре часа, чтобы превзойти Stockfish, а через девять часов она была намного сильнее чемпиона мира среди компьютерных программ.
Для игры в матче Stockfish использовал 44 ядра ЦПУ (центральных процессоров), а AlphaZero один компьютер с четырьмя ТПУ и 44 ядрами ЦПУ. В распоряжении Stockfish был хэш размером 32ГБ и семифигурные эндшпильные таблицы.
Результаты партий AlphaZero против Stockfish в самых популярных среди людей дебютах. Слева результаты AlphaZero белыми, справа - черными. Изображения предоставлены DeepMind и Science. Нажмите для увеличения.
Профессиональные шахматисты, были впечатлены увиденными партиями. МГ Роберт Хесс назвал их "невероятно сложными".
Компания DeepMind так описывает стиль своего детища в статье:
"В некоторых партиях AlphaZero жертвовала фигуры в обмен на долговременный стратегический перевес, что позволяет сделать вывод, что ее позиционная оценка является более гибкой и контекстной, чем оценки, основанные на правилах, которые применяются шахматными программами прошлых поколений", - заявляют исследователи из DeepMind.
Компания-разработчик искусственного интеллекта подчеркивает важность того, что одна и та же версия AlphaZero использовалась для трех различных игр, назвав это прорывом в области игрового искусственного интеллекта:
"Эти результаты приближают нас еще на один шаг к выполнению долгосрочной задачи разработчиков искусственного интеллекта: созданию обобщенного игрового интеллекта, который может освоить любую игру", - говорят исследователи из DeepMind.
I couldn't help but be pleased that AlphaZero plays in open, dynamic style. It's not just my style, but it's not the incomprehensible maneuvering we feared computer chess would become. My @sciencemagazine article: https://t.co/ftcKzYTsw0 https://t.co/85h44ebCrS
— Garry Kasparov (@Kasparov63) December 6, 2018
"Не могу сдержать радость от открытого, динамичного стиля AlphaZero. Это не совсем мой стиль, но это совсем не маловразумительное маневрирование, в которое, как мы боялись, превратятся компьютерные шахматы". - Гарри Каспаров, 6 декабря 2018.
Вы можете загрузить 20 избранных партий, опубликованных DeepMind первыми, с подготовленным Chess.com анализом с помощью Stockfish 10 на мощном компьютере. Первые 10 были сыграны без дебютных книг, а вторые 10 с дебютной книгой, использовавшейся на TCEC (Top Chess Engine Championship) в 2016 году.
20 партий с анализом Stockfish 10:
4 избранные партии с анализом Lc0:
Интересуетесь AlphaZero? Вы можете наблюдать за игрой Lc0, проекта машинного обучения, вдохновленного ей, в текущем Чемпионате среди компьютерных программ.