Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Спустя примерно месяц после публикации материалов по DeepDream на сайте научных препринтов ArXiv.org появилась статья исследователей из Тюбингенского университета (Eberhard Karls Universität Tübingen) Леона Гатиса, Александра Эккера и Маттиаса Бетге под названием «Нейронный алгоритм художественного стиля» (A Neural Algorithm of Artistic Style) [2760].
При обучении свёрточных сетей распознаванию объектов они, как уже было отмечено ранее, формируют иерархию признаков распознаваемых объектов, начиная от наиболее простых, конкретных, относящихся к картам признаков, расположенным ближе ко входному слою сети, и заканчивая сложными, абстрактными, распознаваемыми более глубокими слоями. Ключевым выводом статьи исследователей из Тюбингена стало то, что представления содержания и стиля в свёрточной нейронной сети разделимы (по крайней мере отчасти). То есть существует возможность управлять обоими представлениями независимо друг от друга для создания новых изображений, в которых происходит замена оригинальной содержательной или стилевой составляющей на другую (например, позаимствованную из другого изображения). Более того, Гатису и его коллегам удалось создать алгоритм, способный выполнять подобные манипуляции.
Идея данного алгоритма основана на том, что в структуре обученной сети за представление содержания отвечают карты признаков с небольшим разбросом значений для объектов одного и того же класса. Например, почти все изображения кошек будут содержать в себе глаза, усы, лапы и хвост, поэтому карты признаков, выявляющие подобные содержательные признаки, будут обладать сравнительно малой степенью вариации по сравнению с картами, выявляющими, например, текстуру или цвет меха.
Поскольку в большинстве случаев алгоритм не способен полностью разделить содержание и стиль изображения, то при синтезе картинки, которая объединяет содержимое одного изображения со стилем другого, обычно не существует решения, которое идеально соответствует обоим ограничениям. Поэтому авторы предусмотрели возможность регулировки «акцента модели», то есть меры, с которой модель предпочитает передать стиль изображения в ущерб содержанию.

Поскольку учёные из Тюбингена, как и их коллеги из Google, опубликовали исходный код своей модели, то вскоре появилось множество улучшенных версий исходного метода, а также доступные публике инструменты, позволяющие производить собственные опыты по переносу стиля. Как следствие, в соцсетях и электронных медиа вскоре оказалось большое количество продуктов этих опытов (причём не только для статических изображений, но и для видео).



Если при помощи свёрточных сетей можно изменять стиль изображения, то нельзя ли осуществлять более тонкие манипуляции, например подменять отдельные признаки? Разумеется, модели для выполнения подобных действий вскоре появились. Однако, прежде чем говорить о них, давайте зададимся одним интересным вопросом: можно ли считать полноценными творениями, оригинальными произведениями искусства галлюцинации DeepDream или изображения, полученные в результате переноса стиля? Если ответ на этот вопрос будет положительным, то нам придётся признать за машинами наличие у них способности творить. И конечно же, такой вывод является крайне некомфортным для разного рода критиков научно-технического прогресса и тех, кто считает, что успехи вычислительных моделей способны нанести ущерб человеческой гордости. Таких людей мы будем в шутку называть человеческими шовинистами.
Прежде чем рассуждать о возможностях моделей, нужно отметить, что понятие «оригинальность произведения» определено достаточно слабо и в отношении продуктов творчества людей. Является ли оригинальным произведением перерисовка шедевра в ином стиле? Является ли оригинальной работа ученика, подражающего учителю? Вообще в какой мере влияние учителя на творчество ученика делает произведения последнего неоригинальными? Мнение об оригинальности произведения нередко субъективно, и в ряде случаев за ним не стоит даже шаткого общественного консенсуса. Словом, между произведениями, повсеместно признанными оригинальными, и произведениями бесспорно подражательными лежит большая серая зона. Но мы всё же попробуем разобраться в этом вопросе чуть более детально — ведь раз люди нередко рассуждают об оригинальности творчества, то значит, они вкладывают в это понятие некий смысл.
Итак, какого рода возражения могут выдвинуть человеческие шовинисты (и просто скептики) в отношении способности нейронных сетей создавать оригинальные произведения?
Ну, во-первых, можно отметить, что ни DeepDream, ни модель исследователей из Тюбингена не оригинальны. На вход этих моделей подаются готовые изображения. При всей своей кажущейся серьёзности это возражение при более детальном рассмотрении не выглядит особенно основательным. На вход этих моделей можно подать совершенно случайный набор точек. В результате DeepDream сгенерирует случайные галлюцинации, а модель для переноса стиля создаст абстрактную картину в заданном стиле. Кроме того, существуют и более продвинутые методы порождения изображений с нуля, чем просто генерация случайного набора цветных точек. Например, мы уже упоминали автокодировщики. Обучив свёрточный автокодировщик на большом наборе изображений, можно затем подать на вход декодера случайно сгенерированное латентное представление и в результате получить совершенно новое изображение, напоминающее изображения из обучающей выборки (но в общем случае не идентичное ни одному из них).
Во-вторых, можно обвинить нейронные сети в «отсутствии замысла», однако понятие замысла плохо формализуемо. Этот аргумент напоминает знаменитую «китайскую комнату» Сёрля. Откуда мы знаем, что исходные посылки художника к созданию шедевра являются «настоящим» замыслом, а случайно сгенерированное латентное пространство свёрточного автокодировщика «ненастоящим»? Ведь сигналы в естественной нейронной сети тоже могут быть выражены в виде наборов чисел. Кто-то может сказать, что художник опирается на определённый жизненный опыт, социальную практику и наблюдения, но ведь и нейронная сеть в процессе обучения знакомится с человеческой социальной практикой, опосредованной прецедентами обучающей выборки.
Со вторым возражением тесно связано третье — обвинение генеративных моделей в подражательности. По всей видимости, это мнение сформировалось под влиянием сообщений в прессе об успехах машин в деле генерации изображений и текстов, стилизованных под произведения различных известных авторов. Конечно, создание собственного узнаваемого стиля — важная творческая задача, своего рода метатворчество, но вряд ли у человека есть в решении этой задачи какие-то радикальные преимущества перед машиной. На самом деле при создании стиля художники и литераторы всё равно опираются на свои знания и опыт, то есть новый стиль — это также комбинация «пройденного», просто комбинируются более глубинные признаки. Обычно генеративные модели, способные создавать произведения, стилизованные под разных авторов, выучивают для каждого из авторов и/или каждого из произведений некоторые стилистические векторы. Например, в работах авторов «Нейронной обороны» это эмбеддинги текстов и их авторов; в моделях, основанных на вариационных автокодировщиках, — соответствующие латентные векторы. Стилистические векторы составляют «пространство стилей», и задача создания нового стиля технически представляет собой выбор некоторой точки в этом пространстве. Творческий путь автора представляет собой траекторию, которую проходят в «пространстве стилей» его произведения с течением времени. Я думаю, что в ближайшем будущем мы увидим немало исследований, посвящённых влиянию на индивидуальный стиль различных событий в жизни авторов. Создание машиной нового творческого стиля — задача очень простая, если единственным требованием к этому стилю является его новизна. С этой задачей вполне справится генератор псевдослучайных чисел, выбирающий случайную точку в стилистическом пространстве. На деле проблема заключается не столько в новизне, сколько в связи этого стиля с социальной действительностью. Именно эта связь делает тот или иной стиль востребованным в обществе. Поэтому генеративным моделям скорее нужна не новая степень новизны, а новая степень «социализации». Но и в этой задаче, по-моему, нет ничего принципиально неразрешимого — современные системы машинного обучения в некоторой степени уже «социальны», поскольку социальная практика находит отражение в прецедентах, включаемых в обучающие выборки.