Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
В ноябре 2021 г. свет увидела ещё одна усовершенствованная версия модели T5, получившая название ExT5. В данном случае фокус был сделан на экстремальной многозадачности модели. Датасет для её обучения, получивший название ExMix (Extreme Mixture, Экстремальная смесь), включает в себя тексты заданий и решений для 107 различных задач, относящихся к разным доменам и семействам. ExT5 смогла заметно превзойти свою прародительницу на задачах из набора SuperGLUE и других сборниках тестов [2604].
Модели, подобные GPT-3 или T5, нередко генерируют тексты хотя и грамматически корректные, но не слишком достоверные с фактической точки зрения. Скормив в ruGPT-3 список «интересных фактов», взятых с одного из развлекательных интернет-сайтов, для затравки, я однажды получил среди прочих такие «факты»:
• В Австралии бытует мнение, что если на тебя пристально смотрит лев, то это значит, что у тебя в руках морковка.
• В Арктике нет почтовых голубей. Все письма для белых медведей доставляет летчик-истребитель по радио.
• Выросший в утробе матери скорпион быстрее развивает скорость, чем обычный.
• Джентльмены делятся своими сигарами, если хотят произвести впечатление на женщин.
• Первый государственный банк открылся в России в 1769 г., в США — в 1792-м и так далее.
К такого рода фантазиям склонны в большей мере модели с небольшим числом параметров, но даже от модели с 13 млрд параметров не стоит ждать 100% проверенных фактов. В какой-то мере этим свойством модели можно управлять (например, изменяя параметры генератора последовательностей), но стоит задаться вопросом: а насколько с фактической точки зрения хороши ответы людей? Мир, полный псевдонаучных фриков, сторонников различных теорий заговора, антипрививочников, плоскоземельцев и так далее, генерирует соответствующий цифровой след. Неудивительно, что модели, обученные на случайных текстах из интернета, да ещё и использующие значительную случайную компоненту при выборе токенов во время генерации, периодически начинают производить на свет полную ересь. Обычно, если мне задают вопрос, требующий тех или иных фактических знаний, я обращаюсь к более-менее надёжным источникам во Всемирной сети, таким, например, как энциклопедии, научные статьи и обзоры и так далее. И главным помощником тут становятся поисковые сервисы, такие как Google (кстати говоря, алгоритмы их работы также основаны на современных моделях машинного обучения). Может быть, можно сделать ещё один шаг вперёд и научить нейронную сеть автоматически формировать поисковые запросы для извлечения фактических знаний из большой базы данных? Возможность этого продемонстрировали исследователи из DeepMind, создавшие модель, получившую название RETRO (Retrieval-Enhanced Transformer, Трансформер, усовершенствованный за счёт поиска). RETRO извлекает из большого набора документов релевантные фрагменты текста, чтобы затем использовать их при формировании ответа. Сравнивая сгенерированные тексты с отрывками, на которые модель опиралась при генерации, можно понять, на чём именно основаны полученные ответы [2605]. В 2022 г. создатели модели Re-Imagen (Retrieval-augmented Text-to-Image Generator, Дополненный поиском генератор изображений по тексту) [2606] применили аналогичный подход при генерации изображений, позволяя модели при генерации картинки «подглядывать» в извлекаемые из базы данных изображения объектов, редко встречающихся в обучающей выборке.
В январе 2021 г. исследователи из Google сообщили [2607] о создании новой архитектуры для разреженных трансформерных моделей, названной Switch Transformer (дословно «переключатель-трансформер» или «коммутатор-трансформер»), — наследника архитектуры GShard [2608]. Самая большая модель на основе этой архитектуры получила название Switch-C. Число обучаемых параметров этой модели — 1,571 трлн, что почти в девять раз больше, чем у GPT-3. Таким образом, Switch-C стала первой трансформерной моделью, преодолевшей порог в триллион параметров. Помимо увеличения размера модели, авторам удалось также добиться существенного ускорения её работы по сравнению с предшественниками. Впрочем, сравнивать Switch-трансформеры с моделями типа GPT-3 или T5 не совсем правильно, поскольку в данном случае речь идёт не о монолитной нейросетевой архитектуре, а о сети с разреженным типом активации, состоящей из множества отдельных подсетей-экспертов, переключение между которыми выполняет отдельная нейросетевая модель-диспетчер (Gating Network). При этом каждая сеть-эксперт может располагаться на отдельном узле вычислительного кластера. В итоге на каждом шаге обучения сети обновляется лишь сравнительно небольшое подмножество весов сети, что делает задачу обучения и выполнения сети более экономной с вычислительной точки зрения (впрочем, ценой некоторого падения точности модели). Такую архитектуру сети называют «смесь экспертов» (Mixture-of-Experts, MoE). Процесс обучения MoE-модели чем-то похож на послойное обучение глубоких сетей, популярное на границе тысячелетий. Неслучайно, что первое описание MoE-подхода мы находим в работах [2609], [2610] Джеффри Хинтона и его коллег с начала 1990-х гг.
В наши дни исследования в области MoE-моделей ведутся довольно активно. Например, в сентябре 2021 г. исследователи из Microsoft рассказали о модели под названием Z-code M3 (M3 означает Multitask, Multilingual и MoE — Многозадачная, многоязычная и MoE) [2611], в декабре появилась новая MoE-модель от Google под названием GLaM (Generalist Language Model, Универсальная языковая модель) [2612], а под конец года о создании собственных языковых моделей на основе парадигмы MoE заявили исследователи из Meta (бывшей Facebook) [2613]. По слухам, MoE-подход был использован и при создании GPT-4 от OpenAI [2614].
В апреле 2021 г. исследователи из китайской компании Huawei опубликовали генеративную языковую модель для китайского языка, получившую название PANGU-α [2615]. В древнекитайской мифологии Пань-гу (кит. трад. 盤古, упр. 盘古, пиньинь Pángǔ) — первый человек на земле, появившийся из вселенского яйца и взмахом огромного топора отделивший мутную часть — землю (Инь) от светлой части — неба (Ян).
В самой большой версии PANGU-α 207 млрд параметров, что на 32 млрд параметров больше, чем в самой большой версии GPT-3. Модель обучена на специально созданном текстовом корпусе объёмом около 1,1 терабайта.
Не остались без внимания китайских исследователей и MoE-модели. Исследователи из Пекинской академии искусственного интеллекта (北京智源人工智能研究院, Beijing Academy of Artificial Intelligence, BAAI) создали собственную платформу для обучения таких моделей, получившую название FastMoE. Эта платформа позволяет использовать для обучения MoE-моделей как суперкомпьютеры, так и обычные GPU. Благодаря FastMoE китайские исследователи весной 2021 г. смогли обучить модель под названием Wudao (悟道, так зовут повара-монаха, героя Джеки Чана в фильме «Новый храм Шаолинь»), вторая версия которой, представленная общественности 31 мая, имела 1,75 трлн параметров (что на 150 млрд больше, чем у модели Switch-C) [2616].