Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Как видим, модель успешно справилась с задачей генерации осмысленного текста, который вполне мог бы сойти за статью в какой-нибудь жёлтой газете.
В конце 2019 г. российский специалист по машинному обучению Михаил Гранкин обучил русскоязычную версию GPT-2 и запустил на её основе веб-сервис под названием «Порфирьевич». Своё имя он получил в честь полицейско-литературного робота по имени Порфирий Петрович из романа «iPhuck X» Виктора Пелевина. Обученный на большом корпусе русской литературы «Порфирьевич» порадовал публику множеством забавных творений [2539]. Вот некоторые из них (жирным шрифтом выделен текст-затравка):
Сепульки — важный элемент цивилизации ардритов с планеты Энтеропия. Он так силён, что способен совершать течение времени вспять, пересекая пространственно-временной континуум и превращая последовательные этапы жизни в фарс.
Тогда один из двенадцати, называемый Иуда Искариот, пошёл к первосвященникам и сказал: что вы дадите мне, и я предам Его? Они предложили ему тридцать сребреников. В ответ Иуда сказал: отпустите меня, я всё исполню; пусть двое из вас вкусят от манной каши, а остальные подойдут ко мне. Когда Иуда вошёл в трапезную, первосвященники попросили у него что-нибудь: масла или масла.
Я Ёжик. Я упал в реку. Помоги мне добраться до берега. А потом иди к Люсинде и матери и скажи им, что я жив. А когда они тебя позовут, скажи им: «Я Цуйка Инь». Пусть они сразу же поверят в то, что я живой.
Загадочная внешность Ивана Демидова вызывала много вопросов. Зрители гадали, почему ведущий не снимает очки. Всё дело в том, что он был уверен: лицо Ивана — это только с виду. Как сказал бы Ленин: «А душа Ивана под толстым слоем земли».
А перед открытыми глазами капитана Бруно уже маячила родная земля. Точнее — нужные показатели на навигаторе. Впрочем, и без них бы он с лёгкостью догадался, что крылья самолёта рассекают уже итальянский воздух. Пару раз протерев стёкла бинокля, капитан Бруно окончательно осознал глубину души.
Донастроенная на корпусе русской поэзии, GPT-2 вполне способна генерировать и стихи (правда, белые, по крайней мере при использовании стандартных токенизаторов). Вот результат одного из наших экспериментов:
Мир без царей и без власти
И без революций,
Забытый, нежданный и богатый,
Где вздымаются к небу
Языческие племена!
В полях, в лугах, на озёрах,
В лесах, в рощах, в полях,
Где ветер свищет и свистит,
Где в снегах радуга горит,
Где струны поют, звенят!
Где всё, что нам дышит, дышит,
Как солнце и месяц единый,
Пелым живых, к нам приходит
С запада, с востока, с востока
На пёстром, праздничном троне
Славный царь Емельян.
И видна за ним страна
Избённая, изломленная
И дорогая…
Спит в ней гордый царь Емельян,
Спит народ и царь мирно спит,
Спит голова его алмазная,
Спит краса его стальная.
Спит краса его голубая,
Спит цвет его, краса его золотая,
Спит рабская честь его,
Спит вера его, и совесть его,
Спят и дремлют богатыри.
В принципе, совместив генеративную языковую модель, такую как GPT-2 или GPT-3, с орфоэпическим словарём и моделью рифмы, можно создать систему, способную писать и привычные нам силлабо-тонические стихи. Задача эта носит чисто технический характер и в наши дни под силу любому толковому программисту.
Модели, сочиняющие стихи, в наши дни становятся частью комплексных арт-проектов. Например, в 2020 г. исследователи из австралийского Университета Монаша (Monash University) Нина Райчич и Джон Маккормак представили [2540] публике устройство для «зеркального ритуала», выполненное, как несложно догадаться, в форме зеркала. За зеркальной поверхностью скрыт планшет, оснащённый видеокамерой. Нейросетевая модель получает на вход изображение с камеры и пытается угадать эмоциональное состояние стоящего перед «умным зеркалом» человека. В зависимости от этого состояния устройство выбирает одну из заготовленных текстовых затравок, которую затем подаёт в модель GPT-2, обученную на корпусе специально отобранных поэтических текстов. В результате модель генерирует стихотворение, которое затем отображается на поверхности зеркала.

Рис. 145. «Зеркальный ритуал». Последовательность взаимодействий с зеркалом
Создатели генеративных моделей интересуются не только малыми литературными формами. В 2013 г. по инициативе американского программиста Дариуса Каземи был запущен проект NaNoGenMo (National Novel Generation Month, Национальный месяц генерации романов), созданный по мотивам проекта NaNoWriMo (National Novel Writing Month, Национальный месяц написания романов), предназначенного для поддержки начинающих писателей. Оба проекта понимают под романом художественный текст длиною от 50 000 слов. Участники NaNoGenMo традиционно посвящают каждый ноябрь написанию кода, предназначенного для генерации романов. Проект не носит соревновательного характера — в нём нет победителей и побеждённых. С образцами машинной прозы можно ознакомиться на странице [2541] проекта на платформе GitHub. Роман, давший старт NaNoGenMo, получил название «Подростки прогуливаются вокруг дома». Для создания его текста было задействовано несколько ботов, совершавших виртуальную прогулку и обменивающихся репликами, которые стали основой диалога, ставшего затем романом [2542], [2543].
Кстати говоря, уже знакомые нам Иван Ямщиков и Алексей Тихонов в соавторстве с Яной Агафоновой из Санкт-Петербургского отделения Высшей школы экономики представили [2544] на NaNoGenMo 2019 г. собственное творение — «параноидальный трансформер» [Paranoid Transformer] (явная отсылка к Марвину, роботу-параноику из цикла юмористических романов британского писателя Дугласа Адамса) — модель, представляющую собой объединение GPT, дообученной на специальном корпусе, с набором специальных эвристик, предназначенных для улучшения качества генерации. «Параноидальный трансформер» способен производить на свет вполне реалистичные дневники параноика.
NaNoGenMo — не единственная коллективная онлайн-инициатива, посвящённая литературному творчеству машин. В 2016 г. поэтесса и программистка Кармел Аллисон запустила веб-сайт CuratedAI — «Литературный журнал, написанный машинами для людей» (A literary magazine written by machines, for people) — онлайн-издание, специализирующееся на публикации произведений, созданных при помощи методов искусственного интеллекта. Первыми произведениями, опубликованными на сайте, стали стихи, сгенерированные созданной Кармел нейронной сетью Deep Gimble I («Глубокая Гимбл I») [2545], [2546].
Хотя к форме в случае стихотворного текста предъявляются дополнительные требования, порой весьма жёсткие, задача написания стихотворений, по всей видимости, является более простой с точки зрения искусственного интеллекта. Причина этого довольно банальна: стихотворения в массе своей сравнительно невелики, а значит, при их «написании» генеративная модель не должна «сочинять» крупномасштабную структуру повествования, основой которой являются зависимости между токенами, разнесёнными на очень большие расстояния. Представьте, что какой-то герой вводится автором в первой главе романа, а затем вновь упоминается только через несколько глав. Если между двумя его упоминаниями будет более 1024 токенов, GPT-2 просто «забудет» о его существовании. Конечно, и в поэзии встречаются весьма внушительные произведения — стихотворные поэмы. Самой длинной из них, наверное, можно назвать «Махабхарату». Без поздних включений и прозаических отрывков этот древнеиндийский эпос состоит из как минимум 75 000 шлок (двустиший). Это около 900 000 слов. В полной же версии — до 1 800 000 слов. Правда, «Махабхарата» складывалась чуть ли не одиннадцать веков и усилиями многих людей; самой же длинной поэмой, созданной стараниями одного автора, считается свод «Шахнаме» персидского поэта Фирдоуси, — около 260 000 слов. В то же время в самом длинном прозаическом произведении, романе Жюля Ромена «Люди доброй воли», около 2 070 000 слов, не считая 100-страничного указателя и 50-страничного оглавления. Это во много раз больше, чем в «Шахнаме», и больше, чем в «Махабхарате».