Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Давайте окинем взглядом все кусочки имеющейся у нас мозаики, чтобы понять, все ли необходимые детали для создания будущего AGI имеются в наличии?
Начнём с критериев успеха. Поскольку под AGI-системой мы понимаем систему, способную выполнить любую интеллектуальную задачу, посильную для человека, то критерием создания такой системы станет невозможность нахождения такой задачи, которую люди будут решать статистически значимо лучше, чем созданная система. Мы уже подробно обсуждали историю и проблематику создания соответствующих процедур тестирования в разделах 1.2 и 6.3.4. В целом идеи Айера и Тьюринга сохраняют свою значимость даже спустя почти столетие. Конечно, в отношении оригинальных формулировок игры в имитацию существует ряд вполне резонных вопросов, которые при реализации подобной процедуры потребуют прояснения. Например, важно определиться, с какими именно людьми мы выполняем сравнение, кто входит в жюри (сколько людей, являются ли они специалистами?), каковы критерии завершения теста, каким образом оценивается статистическая значимость результата, как избежать ситуации, когда демаскирующим свойством системы-кандидата будет проявление её сверхчеловеческих способностей (например, способность быстро и точно выполнять арифметические расчёты), важно ли включать в тест задачи, требующие способности системы работать с разными модальностями, и так далее. Однако все эти нюансы, на мой взгляд, ничего не меняют существенным образом. Кроме того, в настоящее время создано множество наборов тестов, позволяющих с минимальными затратами в автоматическом режиме (без привлечения людей-оценщиков) получить приближённую оценку прогресса, мы подробно говорили о них в разделе 6.3.3.6 (например, наборы тестов из семейства GLUE, BIG-bench, MMLU). В общем, в области оценки возможностей систем ИИ ещё требуется дополнительная работа по расширению, систематизации и стандартизации, однако, кажется, нет никаких задач, выглядящих неразрешимыми. Если тезис о симуляции верен, то тест Тьюринга в его последней авторской формулировке теоретически в будущем сможет пройти большая тьюринг-полная языковая модель.
Но можно ли создать такую модель, используя уже имеющиеся у нас методы? Ключевым вопросом в данном случае является вопрос о том, можно ли создать AGI без активного обучения и воплощения, опираясь только на имеющийся массив цифровых данных, накопленный нашим обществом на данный момент, — так называемый «цифровой след человечества». Вопрос этот совершенно нетривиальный и, вероятно, может быть разрешён только экспериментальным путём. Система ИИ, обученная только на данных, являющихся продуктами чужой практики, подобна Жаку Паганелю — знаменитому герою романа «Дети капитана Гранта» Жюля Верна. В романе Паганель стал секретарём Парижского географического общества, членом-корреспондентом географических обществ Берлина, Бомбея, Дармштадта, Лейпцига, Лондона, Петербурга, Вены и Нью-Йорка, почётным членом Королевского географического и этнографического обществ, а также Института Ост-Индии, и всё это — не выходя из своего кабинета. Однако возможен ли такой искусственноинтеллектуальный Паганель на практике? Вот некоторые доводы за и против этой гипотезы (мы будем называть её гипотезой о выводимости [AGI из цифрового следа человечества]).
За:
1. Собранные человечеством цифровые данные — продукт масштабной социальной практики, в которой участвуют миллиарды людей. Цифровой след человечества — отпечаток столь масштабного и разностороннего опыта, что он на много порядков превосходит по объёму любой индивидуальный опыт человека. Отталкиваясь от продуктов этого опыта, можно построить подробную модель мира и без непосредственного выхода в этот мир в физическом теле. Проще говоря — миллиарды шишек, набитых другими, могут заменить машине несколько собственных.
2. Размер цифрового следа человечества растёт экспоненциальными темпами (см. раздел 5.4). Даже если данных не хватает в настоящий момент, очень скоро их будет ещё больше. Растёт разрешение цифровых камер, и увеличивается их доступность, всё больше данных накапливается в журналах систем, взаимодействующих с реальным миром, ежедневно люди пишут миллионы постов в социальных сетях — всё это пополняет копилку данных, полезных для обучения. И, рано или поздно, количество перейдёт в качество.
3. В конце концов мы уже стали свидетелями потрясающих успехов больших языковых моделей и генеративного ИИ. Большие модели оказались способны осуществлять обобщения, необходимые для возникновения у них новых удивительных возможностей. Таких, например, как написание содержательных текстов, генерация новых изображений по текстовым описаниям, сочинение музыки, создание новых молекул и т. д. Вполне возможно, что для нерешённых задач нам просто нужны более крупные модели, больше данных и больше вычислительных мощностей.
Против:
1. Насколько хороши результаты современных моделей за пределами распределений, присущих данным из обучающих выборок? Способны ли генеративные модели эффективно соревноваться с людьми в новых, неизведанных областях пространства и времени? Некоторые современные исследования [3352] показывают, что картина, возможно, не столь радужна, как может показаться на первый взгляд.
2. Цифровой след человечества содержит специфические перекосы, растёт его шумовая составляющая (проще говоря, в накопленных нами цифровых данных может расти доля «мусора», в том числе из-за современных практик применения генеративных моделей — действительно ценные данные могут тонуть в тоннах рекламной, а то и вовсе бессмысленной чепухи).
3. Огромный объём цифрового следа человечества не может компенсировать его невысокой «разрешающей способности» — в интернете, вероятно, можно найти фотографию вашего дома, но там вряд ли найдётся информация о носке-потеряшке, валяющемся под вашей кроватью. Кто знает — быть может, такие мелкие детали, ускользающие от существующих практик оцифровки, являются критически важными для построения качественной модели мира? Как бы ни был велик цифровой след, но количество возможных последовательностей действий человека в окружающем его мире на много порядков больше. Возможно, лишь активное взаимодействие с миром позволит получить критически важную для формирования универсального интеллекта обратную связь.
4. И наконец, а так ли мало количество данных, проходящих через мозг человека в процессе его жизни? Пропускная способность сетчатки человеческого глаза составляет порядка 8,75 Мбит в секунду [3353], что даёт нам около 720 экзабайт за 10 лет жизни. Это всего лишь примерно в 120 раз меньше, чем накоплено человечеством цифровых данных на 2023 год. А ведь мы взяли в расчёт только зрение, хотя есть ещё слух и другие чувства.
Вероятно, расширить возможности нашего Паганеля можно за счёт использования обучения с подкреплением (особенно с подкреплением от людей), создания интернет-воплощений системы ИИ (для её взаимодействия с людьми и другими системами через глобальную сеть с целью применения методов обучения с подкреплением и активного обучения), создания специальных обучающих сред, физических воплощений (пусть и ограниченных) и т. д. В той или иной мере эти подходы опробуются сегодня во многих упоминавшихся нами проектах и моделях — от Gato и Robotic Transformer до I-JEPA и MAToM-DM.
Так или иначе, современная дорожная карта движения от существующих моделей к AGI может включать в себя:
• развитие мультимодальных архитектур (прежде всего чтобы полностью использовать весь потенциал цифрового следа человечества);