Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
В середине 2022 г. благодаря невиданной доселе коллаборации учёных (442 автора из 132 научных коллективов) свет увидел самый большой набор тестов для исследования возможностей генеративных языковых моделей. Он описан в статье «За пределами игры в имитацию: количественная оценка и экстраполяция возможностей языковых моделей» [Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models] [2217] и включает в себя 204 различных типа задач. Набор получил название BIG-bench не только из-за своего размера. Слово BIG в данном случае является аббревиатурой от Beyond the Imitation Game [За пределами игры в имитацию], что отсылает нас к тесту Тьюринга и намекает на то, что данный набор тестов является результатом развития методологии, предложенной Тьюрингом.
Результаты тестирования современных моделей машинного обучения на этом наборе тестов показывают, что, хотя прогресс в последние годы очень значителен, сохраняется множество задач, в которых люди пока что уверенно превосходят даже самые совершенные нейросети. При этом если существующие темпы роста возможностей моделей будут сохраняться до конца 2020-х гг., то этот разрыв, скорее всего, будет ликвидирован.
Авторы ещё одной коллекции тестов для больших языковых моделей — HELM (Holistic Evaluation of Language Models, Комплексная оценка языковых моделей) — делают ставку на развитую систему классификации тестовых заданий (по годам создания, языкам, типам решаемых задач и методологиям оценки). Кроме того, они используют для оценки ответов моделей целых семь показателей: точность [accuracy], калибровку [calibration], устойчивость [robustness], справедливость [fairness], предвзятость [bias], токсичность [toxicity] и эффективность [efficiency]. Всё это позволяет авторам агрегатора тестов производить оценку языковых моделей в зависимости от сценариев их предполагаемого использования [2218].
Другое направление развития таких тестов — добавление дополнительных модальностей, например зрительной. Одним из хорошо зарекомендовавших себя видов такого рода заданий является ответ на вопросы, заданные к некоторой картинке. Например, к фотографии пиццы можно задать вопросы: «На сколько кусков нарезана эта пицца?» или «Является ли эта пицца вегетарианской?» В научной литературе такой тип заданий обычно именуется «ответом на визуальные вопросы» (Visual Question Answering, VQA) [2219]. Если посмотреть на таблицу лидеров для задачи VQA, основанную на популярном датасете COCO (Common Objects in COntext, Обычные объекты в контексте), то в ней всё ещё лидируют люди: трансформерная модель VLMo (Vision-Language pretrained Model, Предобученная модель «зрение — язык») [2220] демонстрирует точность ответов, равную 81,3%, при 83% у людей [2221]. Справедливости ради стоит отметить, что за 2021 г. моделям удалось прибавить почти четыре процентных пункта, поэтому и здесь торжество ИИ не за горами.
Впрочем, создатели сложных автоматизированных тестов не отчаиваются: в начале 2022 г. они порадовали научное сообщество новым многоязычным набором сложных заданий, получившим название IGLUE (Image-Grounded Language Understanding Evaluation, Базирующаяся на изображениях оценка понимания языка) [2222]. Постепенное усложнение автоматизированных тестов должно помочь исследователям в деле создания новых, ещё более эффективных моделей для решения задач обработки естественного языка.
6.3.4 Современные чат-боты и прогнозы Тьюринга
6.3.4.1 Успехи чат-ботов — отличаем правду от вымысла
В наши дни трудно найти человека, который никогда не сталкивался бы в своей жизни с диалоговыми (разговорными) моделями ИИ, ведь именно такие модели являются «сердцами» современных чат-ботов. Справочный бот на сайте интернет-магазина, робот-оператор колл-центра банка, режим «болталки» в виртуальном ассистенте, рекламный бот в социальной сети — всё это олицетворения диалоговых моделей. Некоторые из этих моделей не сложнее Элизы или Перри, а некоторые основаны на трансформерах и других современных нейросетевых моделях.
Прогресс в области создания диалоговых моделей за последнее десятилетие действительно велик. Нередко пресса всерьёз заявляет о том, что тому или иному чат-боту удалось пройти тест Тьюринга [2223], [2224], чем вызывает [2225], [2226] нехилый баттхёрт у специалистов по ИИ и машинному обучению. Под влиянием подобных заявлений прессы периодически выдвигаются предложения о замене «устаревшего» теста Тьюринга на какую-либо более стильную и молодёжную процедуру.

Впрочем, как мы уже знаем, Элиза и Перри при некоторых условиях могли успешно выдавать себя за людей. Может быть, тест Тьюринга был пройден ещё в 1960-е или 1970-е гг.?
Сам Тьюринг предполагал, что примерно к 2000 г. появятся компьютерные программы, использующие 109 битов памяти и достаточно продвинутые, чтобы среднестатистический опрашивающий после пяти минут опроса «имел не более 70% шансов» угадать, разговаривает ли он с человеком или с машиной [2227]. Насколько верным оказался этот прогноз? Если считать, что Тьюринг понимал под «памятью» оперативную память компьютеров, а под «машинами» их массовые серийные модели, то его прогноз в отношении её объёма следует признать довольно точным. Действительно, в начале 2000-х гг. компьютер с процессором Pentium IV и объёмом оперативной памяти 128 Мб (что близко к 109 битов) был довольно типичной персоналкой.
Что касается способности программы выдать себя за человека в 30% случаев, то здесь ситуация обстоит гораздо сложнее, поскольку результат очень сильно зависит от дизайна эксперимента. Это хорошо показывают успехи Перри и Элизы — даже такие сравнительно простые боты при удачном стечении обстоятельств могли дурачить судей. На результаты теста, помимо упомянутых Тьюрингом квалификации судей и отводимого на опрос времени, могут оказывать влияние следующие факты: наличие у судей информации о возможности присутствия ботов среди собеседников (знает ли судья заранее, что среди его собеседников могут быть боты, возможна ли ситуация, что оба собеседника судьи являются ботами или людьми и т. д.), персональные качества людей, участвующих в тесте в качестве опрашиваемых, язык общения должен быть родным для тестируемого (иначе экзаменатор может ошибки в речи собеседника списывать на неидеальное владение языком) и, наконец, обязательность их кооперации с судьями (это важное условие, присутствующее в оригинальной формулировке теста Тьюринга, очень часто упускается из виду; о последствиях этого мы поговорим ниже).
Если временно отвлечься от этих непростых вопросов и ориентироваться только на сообщения прессы, то ситуация будет выглядеть следующим образом. В 2014 г. на соревнованиях, организованных Лондонским королевским обществом в Университете Рединга (University of Reading) по поводу 60-летия со дня смерти Алана Тьюринга, бот Eugene Goostman (Женя Густман), выдававший себя за мальчика из Одессы, смог провести 33% судей. Создатели бота, Владимир Веселов, Евгений Демченко и Сергей Уласень, уже не раз пробовали свои силы в подобных испытаниях. Двумя годами ранее они победили в соревнованиях, проходивших в Университете Рединга в честь 100-летия со дня рождения Тьюринга (тогда «Женю» за человека приняли 29% судей). Кроме того, в 2001, 2005 и 2008 гг. Eugene Goostman участвовал в конкурсе AI Loebner на соискание премии Лёбнера (Loebner Prize) [2228].