Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

В том же году команда исследователей из Калифорнийского университета в Беркли под руководством профессора Алексея Эфроса представила [2752] свою нейросетевую модель для раскраски изображений. В отличие от Даля и его коллег специалисты из Беркли стремились создать систему, способную выполнять раскраску, используя подсказки от людей. При помощи таких подсказок можно было разрешать возникающие при раскраске неопределённости.

В наши дни продолжается быстрое развитие моделей для автоматической и полуавтоматической раскраски изображений. За 2020–2021 гг. только в реестре PapersWithCode появилось 82 статьи, посвящённые этой области (для 38 из них доступен исходный код моделей) [2753]. Даже поверхностный обзор этих работ занял бы непростительно много места.
Ну хорошо, допустим, модели глубокого обучения более-менее справились с задачей раскраски изображений. Но способны ли они перейти на новый уровень визуального творчества — скажем, выполнить стилизацию изображения в соответствии с манерой известного художника?
В 2015 г. социальные сети захлестнула волна картинок, на которых привычные предметы превращались в различные части собачьих морд: носы, глаза, лапы. Виной этому стала модель под названием DeepDream, созданная разработчиком из Google Александром Мордвинцевым.

Метаморфозы, которые изображения претерпевали при помощи DeepDream, быстро окрестили «алгоритмической парейдолией». Слово «парейдолия» происходит от древнегреческих слов παρά — рядом, около; отклонение от чего-либо и εἴδωλον — изображение; и означает разновидность зрительных иллюзий, заключающихся в формировании иллюзорных образов на основе деталей реального объекта. Типичный пример парейдолической зрительной иллюзии — восприятие тёмных пятен на видимой поверхности Луны в качестве фигуры зайца или кролика. Считается, что именно эта иллюзия послужила основой для появления в фольклоре разных народов истории о лунном зайце (или кролике). Другой известный пример парейдолии — лицо Марса — образованное причудливой игрой света и тени подобие человеческого лица на ранних фотографиях поверхности Марса.
Склонность человека узнавать знакомые образы издревле популярна у художников. Например, миланский художник XVI в. Джузеппе Арчимбольдо создал сразу несколько картин, основанных на этом эффекте («Времена года», «Четыре стихии», «Повар», «Юрист»). На них портреты людей при ближайшем рассмотрении оказываются нагромождением различных предметов, растений и животных.

В DeepDream после обучения сеть используется в обратном направлении, для коррекции изображения, причём таким образом, чтобы увеличить значение на выходе выбранного выходного нейрона (например, «нейрона собаки», т. е. нейрона выходного слоя сети, соответствующего метке класса «собака»). Эта процедура похожа на метод обратного распространения ошибки, однако корректируются не веса, а значения на входе каждого из нейронов. В результате всё, что в исходном изображении «напоминало» сети собаку, начинает «напоминать» её ещё больше, то есть само изображение как бы увеличивает «степень собачности».
Сама идея подобного использования нейросетевых моделей появилась ещё во времена первых успехов свёрточных нейронных сетей. Так, в 1988 г. на Международной конференции IEEE по нейронным сетям (IEEE 1988 International Conference on Neural Networks) была представлена работа Джона Льюиса под названием «Создание путём переработки: творческая парадигма для нейронных сетей, обучаемых методом градиентного спуска» (Creation By Refinement: A Creativity Paradigm for Gradient Descent Learning Networks) [2754]. Статья описывает «парадигму для создания новых экземпляров класса объектов, распознаваемых обученной при помощи метода градиентного спуска ассоциативной сети. Подход состоит из фазы обучения, на которой сеть учится идентифицировать объекты желаемого класса, за которой следует простой алгоритм синтеза, в котором полученное случайным образом „творение“ уточняется путём поиска методом градиентного спуска, дополняющим метод, используемый при обучении».
Удивительно, что в наши дни профессор Льюис известен не как основатель инцепционизма [inceptionism] (так сегодня нередко называют этот подход в искусстве), а как «самый терпеливый человек интернета». Дело в том, что он является владельцем учётной записи @johnlewis в Twitter, и ежегодно сотни пользователей со всего мира по ошибке отправляли ему твиты, предназначенные для сети британских универмагов John Lewis & Partners или члена Палаты представителей США от Джорджии Джона Льюиса. Профессор Льюис с присущими ему юмором и вежливостью перенаправлял отправленные ему сообщения (которых становилось особенно много в канун Рождества), чем заслужил у пользователей соцсети славу самого терпеливого человека в интернете [2755], [2756], [2757]. В 2014 г. сеть универмагов прислала Льюису подарочный набор (игрушечного пингвина Мэйбл и набор для опеки над пингвином от Международного фонда дикой природы) в знак признательности и в качестве извинения за доставленные неудобства [2758].
Всё это, конечно, не умаляет достижений исследователей из Google. После того как компания опубликовала подробное описание алгоритма и выложила в открытый доступ исходный код DeepDream, появилось множество инструментов в виде веб-сервисов, мобильных приложений и программ для персональных компьютеров, позволивших широким народным массам производить эксперименты с собственными изображениями.
Многие другие исследовательские группы занялись созданием собственных улучшенных вариантов DeepDream. Некоторые из этих экспериментов были весьма курьёзными. Например, энтузиаст машинного обучения Габриэль Го, ныне сотрудник OpenAI, использовал для генерации алгоритмических галлюцинаций нейронную сеть, созданную группой исследователей из компании Yahoo!, для обнаружения «взрослого» изобразительного контента. В итоге получился генератор довольно криповых порнографических фантазий [2759].
Рост интереса к алгоритмической парейдолии подстегнул дальнейшие исследования в этой области. В результате появилось множество улучшений исходного подхода (например, были предложены различные способы регуляризации, позволяющие улучшать те или иные качества итоговых изображений), а также были расширены границы его применения. В частности, развитие получили два важных направления в области генеративных моделей — перенос (художественного) стиля [(Artistic) Style Transfer] и семантическая манипуляция изображениями [Semantic Image Manipulation]. Поговорим сначала о первом из них.