KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

Конечно, при сравнении оценочных функций AlphaZero и классической версии Stockfish бросается в глаза то, что вычисление оценки при помощи нейронной сети требует выполнения примерно полутора миллиардов операций с плавающей запятой, что явно больше, чем для функции, основанной на наборе правил. Но дело в том, что нейронная сеть в некотором смысле берёт на себя часть функций, которые в Stockfish выполняют алгоритмы перебора. Например, нейронная сеть в состоянии произвести подсчёт атак на различные фигуры и получить хорошую оценку взятий и разменов без рассмотрения конкретных вариантов. Таким образом, оценочные функции AlphaZero и Stockfish не совпадают в полной мере по набору решаемых ими задач.

В общем, сравнивать две программы по этой метрике — плохо. Учитывая не такую большую разницу в силе игры, а также большую мощность оборудования AlphaZero, сказать однозначно, что AlphaZero именно как программа сильнее Stockfish, пока сложно.

Критические замечания высказывались также в отношении настроек Stockfish при игре с AlphaZero (маленький размер хеш-таблицы при большом числе потоков приводил к большому числу блокировок, что замедляло процесс перебора). Контроль времени (одна минута на ход) также трудно признать оптимальным для Stockfish, поскольку таким образом «выбывают из игры» сложные эвристики Stockfish, позволяющие ему рационально распределять время на обдумывание ходов в партии. Критика проекта AlphaZero со стороны сообщества разработчиков шахматных программ была подогрета тем фактом, что «победа» AlphaZero над Stockfish была подана как свершившийся факт. AlphaZero не участвовала в публичных турнирах шахматных программ, не было организовано матча со Stockfish с независимыми судьями, а исходные коды AlphaZero не были опубликованы.

Тем не менее появление AlphaZero стало важным шагом вперёд в области компьютерных шахмат. Программ, эффективно использующих GPU или TPU для шахматных вычислений, до сих пор не существовало, как и сильных программ, использующих нейронные сети. Весьма вероятно, что AlphaZero стала сильнейшей в мире шахматной машиной (при этом не факт, что AlphaZero является сильнейшей в мире программой). Большой шаг вперёд — это переход от перебора, управляемого множеством эвристик, придуманных людьми, к перебору, который управляется моделью машинного обучения. Весьма вероятно, что эвристики, придуманные людьми, содержат в себе те или иные дефекты, являющиеся плодами предвзятости экспертов.

Критика препринта статьи создателей AlphaZero была частично учтена в публикации в Science. Число партий в тестовом матче было увеличено до тысячи, для тестов была взята наиболее актуальная версия Stockfish, были проведены тесты с использованием в качестве стартовых позиций из дебютного набора, применявшегося на чемпионате Top Chess Engine Championship (чемпионат сильнейших шахматных движков) 2016 г., что уравнивало шансы сторон в дебюте. Был использован классический контроль времени: 3 часа на партию с добавлением 15 секунд на ход. В тестах Stockfish использовал 44 ядра CPU (два 2,2 ГГц процессора Intel Xeon Broadwell) при размере хеш-таблицы 32 Гб. Матч завершился победой AlphaZero со счётом 574½ : 425½ (155 побед, 6 поражений, 839 ничьих). Заодно авторы статьи провели между программами игры, отведя им разное время на обдумывание ходов. И хотя это не уравнивало производительность аппаратных платформ во флопсах, но как минимум по энергопотреблению достигался приблизительный паритет. Однако, даже используя 1/10 времени, отведённого оппоненту, AlphaZero смогла одержать победу над Stockfish.

6.2.3.5 Последние достижения нейросетей в го и шахматах

В ноябре 2019 г. специалисты DeepMind опубликовали препринт [1964] статьи с описанием новой игровой системы ИИ, получившей название MuZero. Вторая, дополненная версия препринта была опубликована в 2020 г. MuZero не только превосходит по силе игры своих предшественников, но и способна обучиться играть в игру без предварительного знания её правил. К числу игр, на которых была опробована новая система, добавились классические игры для игровой приставки Atari 2600 (такие как Q*bert, Tennis, Video Pinball, Ms Pacman, Breakout, Pong и др., всего 57 игр).

В 2021 г. увидела свет наследница MuZero — система под названием EfficientZero с гораздо большей скоростью обучения: для достижения сверхчеловеческого уровня во многих играх для Atari ей достаточно всего пары часов игрового времени [1965].

Матч Ли Седоля и AlphaGo, а также последующие успехи DeepMind в области го не только подняли уровень игры на невиданную доселе высоту, но и послужили источником сильных переживаний для многих профессиональных игроков. В 2019 г. 36-летний Ли Седоль заявил о завершении своей игровой карьеры. «Даже если я стану номером один, есть сущность, которую нельзя победить», — сказал он в интервью агентству Yonhap News. Конечно, эта позиция напоминает позицию тяжелоатлета, покинувшего тяжёлую атлетику по той причине, что подъёмный кран способен поднять груз, который никогда не сможет поднять человек. Впрочем, нам трудно сейчас установить наверняка, была ли чья-то психика всерьёз травмирована в результате появления подъёмных кранов.

AlphaGo не была единственной программой для игры в го, использовавшей методы глубокого обучения. Параллельно с DeepMind разработки в этой области вели исследователи из компании Facebook. Первым их детищем стала программа Darkforest, названная так в честь одноимённого романа китайского писателя-фантаста Лю Цысиня. Первая версия Darkforest была основана на свёрточной нейронной сети, обученной на датасете, включавшем 250 000 партий игроков-людей. Начиная со второй версии разработчики использовали комбинацию MCTS и свёрточной сети. После выхода первой статьи от DeepMind, сообщившей миру о победе AlphaGo в матче с Фань Хуэем, Facebook выложила исходные коды Darkforest в открытый доступ. Сила игры Darkforest примерно соответствовала силе игры лучших программ того времени, таких как Zen, DolBaram и Crazy Stone, но заметно уступала силе игры AlphaGo. Позже усовершенствованная версия Darkforest стала [1966] частью платформы ELF под названием ELF OpenGo. В 2018 г. OpenGo сыграла 14 партий с четырьмя профессиональными игроками в го из числа топ-30, одержав победу во всех играх. Во время игры OpenGo использовала один GPU и тратила 50 секунд на выбор каждого хода, а её противники не были ограничены во времени.

В 2019 г. свет увидела программа KataGo, воплощающая в себе воспроизведение и развитие методов, использованных создателями AlphaGo. Благодаря усилиям её создателя, Дэвида Ву, KataGo демонстрирует значительно более высокую вычислительную эффективность, чем её предшественники, что позволяет успешно обучать программу с использованием сравнительно недорогого оборудования [1967], [1968]. На сентябрь 2023 г. KataGo занимает [1969] уверенное первое место в рейтингах публичных программ для игры в го.

25 октября 2017 г. состоялся первый релиз проекта Leela Zero — программы для игры в го с открытым исходным кодом, созданной бельгийским программистом Джаном-Карло Паскутто, автором шахматного движка Sjeng и движка для игры в го под названием Leela. Автор Leela Zero поставил перед собой задачу воспроизвести алгоритм, описанный в статье, посвящённой AlphaGo Zero.

В начале 2018 г. было создано ответвление проекта Leela Zero под названием Leela Chess Zero (LC0). Его создатели поставили перед собой цель воспроизвести публикацию, посвящённую AlphaZero, применительно к игре в шахматы. Альтернативой использованию гигантских вычислительных мощностей Google стало создание инфраструктуры для краудсорсинга, но даже совместными усилиями участникам проекта необходимы месяцы расчётов на то, на что у DeepMind ушли всего лишь часы. Матчи, проведённые весной 2020 г., показывали несущественную разницу в силе игры Stockfish и LC0. На 15 марта 2020 г. на сайте CCRL (Computer Chess Rating Lists, популярный сайт с таблицей рейтингов шахматных программ) версия Leela Chess Zero 0.22.0 T40B.4-160, использующая для игры одну видеокарту GTX1050, уступала Stockfish 11 только 31 пункт Эло (3464 против 3495), что соответствует разнице 54 : 46 по набираемым очкам (при ограничении времени, эквивалентном 15 минутам на каждые 40 ходов на CPU i7-4770k, т. е. при использовании других процессоров ограничение времени изменяется пропорционально производительности). Поскольку GTX1050 заметно уступает в производительности лучшим GPU, не говоря уже о TPU, то при использовании более производительного оборудования LC0, вероятно, не уступала Stockfish. Среди турниров TCEC и CCCC в числе победителей попеременно оказывались Leela Chess Zero (или ответвления от этого проекта) и Stockfish. В последние годы число нейросетевых шахматных движков постоянно росло — Leelenstein, Allie+Stein, Scorpio NN, Antifish, — и шахматное сообщество ожидало, что по мере роста доступности NPU они вытеснят «классические» программы с компьютерно-шахматного олимпа.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*