Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
4. Генеративные языковые модели нередко ошибаются в фактах (особенно не в самых общеизвестных) и могут откровенно фантазировать (этот эффект в наши дни часто называют «галлюцинациями» моделей; в результате галлюцинаций нередко возникают такие феномены, как фактоиды (от англ. factoid, от англ. fact — факт и -oid — от др.-греч. εἶδος — форма, вид, — «принимающий вид факта») — недостоверные или ложные утверждения, которые по форме напоминают достоверные). Генеративные модели в каком-то смысле напоминают студента, припёртого преподавателем на экзамене к стенке вопросом, ответ на который студент не знал либо успешно забыл. Многие студенты знают, что молчать в таких случаях не следует. Примерно то же «знает» и генеративная модель, в инструктивном датасете которой просто очень мало примеров того, как на вопрос пользователя следует ответ «Я не знаю». В итоге на свет и появляется правдоподобная чепуха.
5. Знания моделей без дообучения устаревают. Здесь могут помочь современные методы постоянного обучения [continuous learning].
6. Некоторые интеллектуальные задачи пока что лучше решают специализированные модели и даже системы, основанные на правилах. Например, задачи классификации и регрессии со сравнительно небольшим числом параметров лучше решают такие методы, как градиентный бустинг или леса случайных деревьев.
7. Большие модели склонны заучивать клише (многократно повторённые в обучающих выборках последовательности).
Также в качестве ответа на проблемы, обозначенные в пунктах 2–6, получили развитие так называемые мультиэкспертные, или интерактивные, подходы. К области мультиэкспертности в данном случае относят методы, предполагающие усиление возможностей фундаментальных нейросетевых моделей за счёт создания механизмов их взаимодействия с другими моделями, системами, сервисами (в том числе акторами, т. е. исполняющими системами) и различными аппаратными устройствами. Человеческий мозг так же, как и большие трансформерные модели, не слишком подходит для того, чтобы, например, перемножать шестизначные числа. В таких случаях мы обычно хватаемся за калькулятор. Для поиска или проверки фактов мы обращаемся в поисковую систему. Для ведения заметок используем записную книжку. Почему бы не предоставить генеративной нейросети аналогичную возможность? Эта идея возникала у исследователей неоднократно. Например, сходные соображения мы находим в статье, посвящённой модели LaMDA (название модели отсылает нас к лямбда-исчислению Чёрча, намекая на возможность рекуррентного вызова функций) [2718], в работах «Toolformer: языковые модели могут научиться использовать инструменты» [Toolformer: Language Models Can Teach Themselves to Use Tools] [2719], «ToolkenGPT: расширение возможностей замороженных языковых моделей за счёт использования большого числа инструментов с помощью векторных вложений инструментов» [ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings] [2720], «GPT4Tools: обучение больших языковых моделей использованию инструментов путём самоинструктирования» [GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction], «HuggingGPT: решение задач ИИ с помощью ChatGPT и его друзей на платформе Hugging Face» [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face] [2721], «Gorilla: большая языковая модель, соединённая со множеством API» [Gorilla: Large Language Model Connected with Massive APIs] [2722] в материалах по плагинам для ChatGPT [2723] и так далее.
Вопрос об объединении генеративной и поисковой (экстрактивной) моделей [2724], [2725] начал изучаться ещё в начале 2010-х гг. Ему посвящена, например, работа 2011 г. «KenLM: более быстрые и компактные вызовы языковых моделей» [KenLM: Faster and Smaller Language Model Queries] [2726]. Впрочем, тогда исследователей больше интересовали не вопросы борьбы с галлюцинациями или увеличения длины контекста языковых моделей, а то, как можно повысить скорость их работы. В трансформерную эпоху к вопросу объединения генерации и поиска обращались исследователи из DeepMind («Улучшение языковых моделей путём поиска по триллионам токенов» [Improving language models by retrieving from trillions of tokens] [2727]), Meta («Улучшенная за счёт поиска генерация для задач обработки естественного языка, требующих интенсивного использования знаний» [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks] [2728]), Стэнфордского университета («Показать-Найти-Предсказать: объединение поисковых и языковых моделей для обработки естественного языка, требующей интенсивного использования знаний» [Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP] [2729]) и так далее.
Идея гетерогенной нейросимвольной архитектуры, в которой входящие в ансамбль нейросети, символьные модели и другие подсистемы будут сообща действовать для решения поставленной пользователем задачи, вызывает ассоциации с теорией, разработанной в 1970—1980-е гг. Минским и Пейпертом и изложенной в книге Минского «Сообщество разума» [Society of Mind] [2730]. В ней Минский шаг за шагом конструирует модель человеческого интеллекта, построенную на взаимодействии простых частей, называемых агентами. И хотя каждый из агентов в отдельности не является разумным, их взаимодействие порождает то, что мы и называем разумом. «Какой хитрый трюк делает нас разумными? Фишка в том, что никакой хитрости нет, — пишет Минский. — Сила интеллекта проистекает из нашего огромного разнообразия, а не из какого-то одного принципа, отточенного до совершенства».
Конечно, схема взаимодействия агентов (экспертов) и сама их природа в мультиэкспертных системах может быть очень разной. При некоторых допущениях «сообществами разума» можно считать и генеративные языковые модели, оснащённые механизмом плагинов, и MoE-сети, и системы, состоящие из нескольких языковых моделей, осуществляющих мозговой штурм на естественном языке [2731], и генеративных агентов, «живущих» в упрощённой симуляции мира [2732], и системы, в которых модель-агент обучается решать различные задачи, «интервьюируя» другую сеть, являющуюся моделью среды [2733], а то и вовсе произвольные ансамбли моделей. В целом подход этот является весьма продуктивным и способен послужить основой для множества различных систем.
Один из основателей DeepMind Мустафа Сулейман считает, что именно интерактивная парадигма станет фундаментом нового поколения систем ИИ:
Первая волна ИИ касалась классификации. Глубокое обучение показало, что мы можем научить компьютер классифицировать различные типы входных данных: изображения, видео, аудио, язык. Сейчас мы находимся в генеративной волне, когда вы берете входные данные и создаете новые данные.
Третья волна будет интерактивной фазой. Вот почему я уже давно уверен, что диалог — это интерфейс будущего. Знаете, вместо того, чтобы просто нажимать на кнопки и печатать, вы будете разговаривать со своей системой ИИ.
И эти системы будут способны совершать действия. Вы просто дадите системе общую цель высокого уровня, и она будет использовать все имеющиеся у неё инструменты для достижения этой цели. Системы будут разговаривать с другими людьми, разговаривать с другими системами. Это то, что мы собираемся сделать с Pi (перспективной системой от DeepMind. — С. М.).