Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
В октябре 2021 г. исследователи из Академии DAMO (Academy for Discovery, Adventure, Momentum and Outlook, Академия открытий, авантюр, импульса и перспектив) — исследовательского подразделения компании Alibaba — сообщили [2617] о создании новой версии своей MoE-модели M6 (MultiModality-to-MultiModality Multitask Mega-Transformer, Многозадачный мегатрансформер из мультимодальных представлений в мультимодальные) с 10 трлн параметров.
В апреле 2022 г. группа китайских исследователей из DAMO, Университета Цинхуа, Пекинской академии искусственного интеллекта и Лаборатории Чжэцзян (之江实验室) (научно-исследовательского учреждения, созданного совместно правительством провинции Чжэцзян, Чжэцзянским университетом и Alibaba Group) сообщила [2618] о создании MoE-модели MoDa-174T (от MoE и Data — название отсылает к гибридной стратегии параллелизма MoE и данных) с 173,9 трлн параметров, в состав которой входят целых 96 000 сетей-экспертов. Для обучения модели использовались фреймворк BaGuaLu [2619] и суперкомпьютер Sunway последнего поколения. Модель обучали на самом большом китайском мультимодальном датасете — M6‑Corpus [2620], содержащем 1,9 Тб изображений и 292 Гб текстов. К сожалению, авторы не приводят информации о результатах решения моделью различных тестовых задач, поэтому о способностях MoDa-174T мы пока что можем только догадываться.
На сентябрь 2023 г. MoDa-174T, по всей видимости, является самой большой MoE-нейросетевой моделью, а первую по числу параметров позицию среди «монолитных» генеративных языковых трансформерных моделей (и нейросетевых моделей вообще) заняла сеть Megatron-Turing NLG 530B с 530 млрд параметров, созданная специалистами из Nvidia и Microsoft [2621], [2622].
Если же рассматривать только модели, веса которых были выложены в открытый доступ, то лидерство принадлежит опубликованной в сентябре 2023 г. самой крупной версии модели Falcon [2623] со 180 млрд параметров от Института технологических инноваций (Technology Innovation Institute) — правительственной исследовательской организации из Объединённых Арабских Эмиратов. Второе место принадлежит модели BLOOM [2624] со 176 млрд параметров, увидевшей свет в ноябре 2022 г. и созданной международной группой из 391 исследователя, входящих в коллаборацию BigScience (в их числе и Татьяна Шаврина из моей команды в Сбере). Третье место удерживает модель OPT-175B [2625], [2626], созданная ещё полугодом ранее исследователями компании Meta (бывшая Facebook) и отставшая от BLOOM на 1 млрд параметров. Четвёртое же место достаётся вышедшей на неделю позже BLOOM модели Galactica [2627] со 120 млрд параметров, в обучающий корпус которой вошли преимущественно научные тексты.
6.6.5 Лучше меньше, да умнее! Появление ChatGPT
Сегодня совершенствование генеративных трансформерных моделей происходит не только в направлении увеличения числа параметров и разработки новых вариантов архитектуры сетей. Конечно, с момента появления GPT-3 было создано несколько монолитных генеративных трансформерных моделей, превосходящих её по числу параметров, например уже упомянутая нами PANGU-α, модель Jurassic со 178 млрд параметров от израильской исследовательской компании AI21 Labs [2628] и модель Gopher с 280 млрд параметров от DeepMind [2629], [2630], а в обзорных исследованиях 2020–2022 гг. часто делался акцент на экспоненциальном росте со временем числа параметров языковых моделей. Однако этих эмпирических наблюдений было явно недостаточно для того, чтобы чётко сформулировать законы оптимального масштабирования трансформерных нейросетей. Многие исследователи задавались вопросом о том, как количество параметров модели должно соотноситься с размером обучающей выборки и объёмом вычислений, затраченных на обучение.
В течение почти двух лет научное сообщество ориентировалось во многом на результаты, полученные в 2020 г. исследователями из OpenAI и представленные в статье «Законы масштабирования нейронных языковых моделей» [Scaling Laws for Neural Language Models] [2631]. Вот основные выводы этого исследования:
• точность трансформерной языковой модели плавно растёт по мере увеличения числа её параметров, размера датасета и объёма вычислений, затраченных на обучение;
• для достижения оптимума все три фактора должны увеличиваться совместно;
• точность предсказаний модели является степенной функцией каждого отдельного фактора, если она не ограничена двумя другими;
• каждый раз, когда мы увеличиваем размер модели в восемь раз, нам нужно увеличивать объём датасета примерно в пять раз.
Однако в 2022 г. исследователям из DeepMind удалось доказать, что эти оценки были недостаточно точными. С точки зрения оптимальности языковые модели должны быть значительно меньше по размеру или обучаться существенно дольше, а объём датасета и число параметров модели должны увеличиваться в равной пропорции. Фактически это означало, что и GPT-3 с её 175 млрд параметров, и Gopher с 280 млрд параметров, и тем более Megatron-Turing NLG с 540 млрд параметров были трагически недообучены. Авторы работы продемонстрировали, что обученная ими модель, получившая название Chinchilla, несмотря на сравнительно скромное число параметров (70 млрд) на большом наборе тестов, уверенно превосходит своих более крупных «собратьев» [2632], [2633].
Результаты, полученные исследователями DeepMind при работе над моделью Chinchilla, существенно повлияли на следующее поколение больших языковых моделей. В первую очередь к ним обратились исследователи из Google Research (обе команды на тот момент входили в один и тот же холдинг — Alphabet, — а сегодня и вовсе объединены в единую структуру в рамках мер, предпринятых Alphabet с целью завоевать лидерство в конкуренции с союзом OpenAI и Microsoft [2634]). Технические отчёты создателей моделей PaLM [2635] и PaLM 2 [2636] из Google Research пестрят отсылками к работам коллег. Хотя «генетически» модели семейства PaLM куда ближе к T5 и mT5 (например, они унаследовали от семейства T5 способы токенизации текста), а Chinchilla можно с некоторой натяжкой считать наследницей модели Gopher, выводы, сделанные создателями Chinchilla, оказались достаточно универсальными, чтобы подтвердиться в экспериментах с совсем другой моделью.
Другое потенциальное направление улучшения нейронных языковых моделей связано с применением более совершенных алгоритмов оптимизации. Например, новые алгоритмы оптимизации Lion и Sophia обещают в некоторых случаях ускорить обучение гигантских моделей в несколько раз [2637], [2638]. Результаты более совершенных, чем AdamW, оптимизаторов не всегда хорошо воспроизводятся, но вселяют определённые надежды.