Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Впрочем, некоторые исследователи отнеслись к результатам коллег из Microsoft с недоверием. Через два дня после выхода работы, посвящённой phi-1.5, аспирант из Стэнфордского университета Райлан Шеффер выложил на arXiv пародийный препринт под названием «Предобучение на тестовом наборе — это всё, что вам нужно» [Pretraining on the Test Set Is All You Need] [2669], в котором рассказал о создании модели Phi-CTNL (читается как fictional, т. е. «вымышленный»). По словам автора, модель достигает 100%-ной точности на ряде публичных тестовых наборов задач благодаря... качеству данных! [2670] А именно — добавлению в обучающую выборку всех вопросов из публичных тестов, а также правильных ответов к ним! Таким образом Шеффер намекнул, что специально подготовленные обучающие данные моделей phi очень уж похожи на тесты, использованные для их оценки. Шеффер не был первым из специалистов в области машинного обучения, привлекших внимание к проблеме «протечки» [leakage] тестовых заданий в обучающие выборки фундаментальных моделей [2671]. Причём такого рода протечки обычно бывают неумышленными — такие задания могут оказаться в обучающей выборке в процессе автоматического сбора информации в Сети. Чтобы исключить подобное, в тестовые наборы данных часто включают какую-либо уникальную длинную последовательность символов, и если обученная модель «помнит» эту последовательность — это верный признак «протечки».
Впрочем, с самой идеей важности использования качественных данных для обучения фундаментальных моделей вряд ли кто-то может поспорить. Она подтверждается многочисленными экспериментами в области обучения современных LLM [2672], [2673]. В последнее время исследователи уделяют большое внимание созданию качественных публичных датасетов для обучения больших языковых моделей, подобных, например, Slim Pajama [2674] и CulturaX [2675].
Итак, рецепт изготовления вашего собственного аналога ChatGPT выглядит следующим образом:
1. Взять предобученную языковую модель. Это может быть LLaMA или, например, наша ruGPT-3.5 (если для вас важно, чтобы ответы модели на русском языке были более грамотными и точными).
На этом этапе модель уже очень много знает о мире, но пока ещё недостаточно хорошо умеет отвечать вам в правильной форме — то есть при помощи диалоговых реплик, содержащих по возможности наиболее полные решения поставленных перед моделью задач.
2. Выполнить процесс дообучения модели, который обычно называют SFT (Supervised fine-tuning, Дообучение с учителем). Это весьма ответственная задача, поскольку для её реализации требуется собрать очень качественный набор обучающих данных в инструктивной форме. Они могут выглядеть примерно так:
Вопрос: Дай ответ на главный вопрос жизни, Вселенной и всего такого.
Ответ: Ответ на главный вопрос жизни, Вселенной и всего такого был представлен в научно-фантастическом романе Дугласа Адамса «Автостопом по галактике». В книге суперкомпьютер по имени «Глубокий мыслитель» (Deep Thought) вычислил этот ответ, и он равен 42. Однако сам вопрос, на который отвечает число 42, так и остался неизвестным. Это стало источником юмора и символом парадокса в поиске смысла жизни и Вселенной.
Инструктивные данные не только задают форму ответов модели, настраивая её отвечать подобным образом, но и влияют на её «систему ценностей». Например, для того, чтобы модель не грубила в ответ на грубости пользователя, в инструктивный датасет специально добавляют примеры с вежливыми ответами на невежливые реплики пользователя. Задача разработки специализированного этического подмножества для инструктивного датасета — одна из важнейших задач при проектировании генеративной модели, предназначенной для массового применения. Некоторые ответы модели могут быть не такими уж и безобидными. Например, модель может дать некорректную медицинскую рекомендацию, что может обернуться вредом для здоровья беспечного пользователя. Поэтому важно составить детальную структуру рискованных тем и покрыть каждый из выявленных таксонов достаточно представительным набором примеров выверенных ответов. Вообще для того, чтобы инструктивные данные были максимально качественными, нужно обеспечить их тщательную проверку, в том числе с привлечением экспертов по различным областям человеческих знаний.
3. Обучить модель-оценщик. Обычно это отдельная классификационная модель, которая умеет предсказывать, какой из вариантов, сгенерированных языковой моделью, больше понравится пользователю. Чтобы обучить эту модель, нужна соответствующая разметка.
4. Финальное выравнивание. Теперь нужно пропускать через модель результаты генерации и обновлять её веса при помощи алгоритма оптимизации на базе аппроксимации политики (PPO) [2676], [2677], [2678].
Примерно таким образом были обучены модели, лежащие в основе сервиса GigaChat, запущенного для ограниченной аудитории 24 апреля 2023 г. GigaChat чем-то похож на дирижёра большого оркестра, с той лишь разницей, что управляет он не музыкантами, а нейросетями. Основу нейросетевого ансамбля составляют модели ruGPT-3.5 (в более поздних версиях — ruGPT-4) и Kandinsky 2.1 (в более поздних версиях — Kandinsky 2.2 и Kandinsky 3.0). Функцию генератора ответа берёт на себя сеть ruGPT, при этом ответы могут содержать динамические блоки, необходимые для вызовов других нейросетей и алгоритмов (например, калькулятора). Набор моделей, входящих в ансамбль, получил название NeONKA (NEural Omnimodal Network with Knowledge-Awareness, Нейронная омнимодальная сеть, базирующаяся на знаниях). Это название отсылает к «Сказке о Тройке» братьев Стругацких и описанной там эвристической машине «для отвечания на все вопросы». Её ушлый изобретатель утверждал, что секрет машины именно в мистической «неонке», благодаря которой «ротор поля наподобие дивергенции градуирует себя вдоль спина и там, внутре, обращает материю вопроса в спиритуальные электрические вихри, из коих и возникает синекдоха отвечания…». Правда, для работы машины нужен был сам изобретатель, который собственноручно печатал ответы на печатной машинке. Современная же нейросетевая NeONKA позволяет одновременно вести сотни тысяч диалогов, не прибегая к помощи человека. Таким образом, научно-технический прогресс превзошёл сегодня даже самые смелые ожидания фантастов.
GigaChat способен решать множество интеллектуальных задач: он отвечает на вопросы, поддерживает диалог, пишет программный код, создаёт тексты на самые разные темы и в разном стиле и даже рисует картины.
GigаChat является совместной разработкой команд SberDevices и Sber AI, в его создании также принимали участие сотрудники Института искусственного интеллекта (AIRI, Artificial Intelligence Research Institute), отраслевые эксперты и специалисты компании Cloud, обеспечивавшие строительство и эксплуатацию суперкомпьютера «Кристофари Нео» [2679].
6.6.6 Фундаментальные модели и новые перспективы
Появление моделей, подобных BERT, GPT, T5 и так далее, заставило исследователей говорить о появлении нового класса моделей машинного обучения, получившего название «фундаментальные модели» [foundation models], и даже о смене парадигмы современного ИИ. В рамках Стэнфордского института человекоориентированного ИИ (Stanford Institute for Human-Centered Artificial Intelligence, HAI) был основан Центр исследования фундаментальных моделей (Center for Research on Foundation Models, CRFM), программное исследование которого, увидевшее свет в августе 2021 г., получило название «О возможностях и рисках фундаментальных моделей» (On the Opportunities and Risks of Foundation Models) [2680].