Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
В первой партии матча, состоявшейся 9 марта 2016 г., корейский мастер сдался в безнадёжной позиции после 186-го хода, и всему миру стало ясно: со времени матча с Фань Хуэем команда AlphaGo (к которой присоединился и сам Фань Хуэй) не теряла времени даром. Но если после первой партии у кого-то ещё оставались иллюзии по поводу уровня игры программы, то они развеялись после второй и третьей партий матча. Доведя счёт до 3 : 0, AlphaGo досрочно стала победителем, однако матч был доигран: в четвёртой партии Ли Седолю удалось в упорной борьбе размочить счёт, но в последней игре машина вновь одержала победу. Итоговый счёт матча 4 : 1 стал для многих полной неожиданностью. Подспудно многие болельщики ожидали, что противостояние человека и машины в такой традиционно сложной для машин игре, как го, растянется как минимум на несколько лет. Путь к победе команд Шеффера в шашках и Фэнсюна Сюя в шахматах занял много лет и был полон трудностей и временных неудач, в то время как DeepMind преодолела его, казалось, играючи.
Стартап DeepMind Technologies был основан Демисом Хассабисом, Шейном Леггом и Мустафой Сулейманом в 2010 г. Хассабис и Легг познакомились в подразделении вычислительной нейробиологии Гэтсби (Gatsby Computational Neuroscience Unit) Университетского колледжа Лондона (University College London, UCL). Первой пробой пера для DeepMind стало создание систем ИИ, способных играть в старинные компьютерные аркады, такие как Breakout, Pong и Space Invaders. Специалисты компании стремились создать системы, способные овладеть игрой без предварительного знания её правил. В числе инвесторов DeepMind были крупные венчурные компании, такие как Horizons Ventures и Founders Fund, а также частные предприниматели, такие как Скотт Банистер, Питер Тиль, Яан Таллинн и Илон Маск. В январе 2014 г. Google приобрела DeepMind за 500 млн долларов, обойдя на повороте другого потенциального покупателя — Facebook. В 2014 г. DeepMind получила награду «Компания года» от Кембриджской компьютерной лаборатории (Cambridge Computer Laboratory).
Ли Седоль принёс публичные извинения за своё поражение, заявив после третьей игры, что «неправильно оценил возможности AlphaGo и чувствовал себя бессильным». Он подчеркнул, что поражение было «поражением Ли Седоля», а не «поражением человечества». Также он не преминул заметить, что «роботы никогда не поймут всю прелесть игры так, как мы, люди», и назвал свой результат в четвёртой партии бесценной победой, которую он не обменял бы ни на что.
Мюррей Кэмпбелл из команды Deep Blue назвал победу AlphaGo «концом эпохи» и заявил, что с настольными играми удалось более или менее разобраться и что пришло время двигаться дальше.
После окончания матча, 17 марта 2016 г. правительство Южной Кореи объявило, что в течение следующих пяти лет инвестирует 1 трлн вон (около 860 млн долларов) в исследования в области ИИ [1947].
За выдающиеся достижения в области искусственного интеллекта команда AlphaGo получила медаль Марвина Минского от Международных объединённых конференций по ИИ (International Joint Conferences on Artificial Intelligence, IJCAI). «AlphaGo — это замечательное достижение, прекрасный пример того, ради чего была учреждена медаль Минского», — сказал профессор Майкл Вулдридж, председатель комитета по наградам IJCAI. «Что особенно впечатлило IJCAI, так это то, что AlphaGo достигла своего результата благодаря блестящему сочетанию классических методов ИИ и современных технологий машинного обучения, тесно связанных с DeepMind. Это потрясающая демонстрация современного искусственного интеллекта, и мы рады возможности отметить его с помощью этой награды» [1948].
6.2.3.2 Методы в основе AlphaGo
О каких же методах в данном случае шла речь?
В основе AlphaGo лежит переборный алгоритм под названием «метод Монте-Карло для поиска по дереву» (Monte-Carlo Tree Search, MCTS). Существует множество модификаций данного алгоритма, но объединяющим их свойством является то, что MCTS исследует некоторое количество траекторий в игровом дереве, выбирая их при помощи алгоритма генерации псевдослучайных чисел. При этом распределение вероятностей (т. е. закономерность, описывающая область возможных значений случайной величины и вероятности появления этих значений) при выборе хода в конкретном узле дерева определяется при помощи различных математических моделей, которые могут принимать в расчёт как различные признаки позиции, соответствующей данному узлу дерева, так и историю предшествующего исследования данного узла. Идея заключается в том, что MCTS будет выбирать для рассмотрения наиболее вероятные варианты развития игры, поэтому подмножество изученных им траекторий позволит с достаточной точностью аппроксимировать оценку позиции в корне дерева перебора. AlphaGo не была первой программой, основанной на применении MCTS, задолго до неё этот метод использовало множество программ для игры в го, к числу которых относились, например, Gomorra, Fuego, Crazy Stone, Zen, Aya, Pachi, Many Faces of Go и многие другие [1949].
Принципиальная новация заключалась в том, что для предсказания распределения вероятностей в узлах дерева MCTS, а также для оценки терминальных позиций дерева перебора в AlphaGo применялись свёрточные нейронные сети: «сеть политик» (policy network) и «сеть оценки» (value network) соответственно. Неслучайно в числе авторов статьи с описанием AlphaGo в Nature можно найти уже знакомого нам по программе распознавания изображений AlexNet Илью Суцкевера. Для первичного обучения нейронных сетей AlphaGo использовалась база данных онлайн-сервиса KGS Go, содержащая 29,4 млн позиций из 160 000 игр сильных игроков в го (с шестого по девятый дан). Датасет был расширен за счёт отражений и поворотов позиций. Доучивание сетей происходило в режиме обучения с подкреплением за счёт игр, в которых программа играла сама с собой.
6.2.3.3 Дальнейшее развитие AlphaGo — отказ от человеческих знаний
Хотя «момент Deep Blue» для го определённо состоялся, это не означало окончания работы DeepMind над проектом. В конце декабря 2016 г. на го-сервере Tygem зарегистрировался новый игрок под именем Magister. Magister одержал 30 побед подряд над лучшими игроками сервера, а затем перешёл на сервер FoxGo, сменив имя на Master, и выиграл ещё 30 раз. Лишь однажды игра была технически признана ничьей, когда у китайского профессионала Чэнь Яое возникли проблемы с подключением к интернету после нескольких начальных ходов партии. Загадочный Master четыре раза одержал победу над корейским игроком девятого дана Пак Чжон Хваном и дважды — над Ке Цзе. Гу Ли также не удалось одолеть неизвестного, и после поражения он пообещал награду в размере 100 000 юаней (около 15 000 долларов) тому, кто сможет это сделать.
Некоторые пользователи сервера заподозрили, что новый игрок не является человеком: Master играл по десять партий в день с небольшими перерывами или вовсе без них. 4 января 2017 г. Демис Хассабис рассказал в Twitter, что за Magister и Master играла обновлённая версия AlphaGo. Благодаря этому эксперименту DeepMind игроки получили возможность изучить приёмы новой версии программы [1950].
19 октября 2017 г. в Nature вышла очередная статья [1951] от команды AlphaGo. В ней была представлена AlphaGo Zero — новая версия программы, при обучении которой не использовались партии игроков-людей. В процессе обучения AlphaGo Zero за три дня превзошла уровень игры версии AlphaGo, игравшей в матче против Ли Седоля, за 21 день достигла уровня игры AlphaGo Master (той самой версии, что играла на сервере FoxGo под ником Master), а спустя 40 дней стала сильнее всех имевшихся на тот момент версий AlphaGo. По мнению Хассабиса, рекордная сила игры AlphaGo Zero была связана именно с отказом от человеческих знаний, которые лишь ограничивали программу.