Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
О данной премии надо поговорить отдельно. Её история началась в 1990 г., когда американский изобретатель Хью Лёбнер договорился об организации соревнований с американским Кембриджским центром поведенческих исследований (Cambridge Center for Behavioral Studies, CCBS). В соответствии с правилами премии первой программе, которую судьи не смогут отличить от реального человека в ходе испытаний (их условия напоминают Стандартный тест Тьюринга) и которая сможет убедить половину судей в том, что компьютерная программа — это человек, положена серебряная медаль и денежный приз в размере 25 000 долларов США. 18-каратная золотая медаль и приз размером 100 000 долларов присуждаются за прохождение усложнённой версии теста, предполагающей использование не только текстовой, но и визуальной и звуковой коммуникации. Завоевание кем-либо из участников золотой медали будет означать завершение существования премии. До настоящего времени никому не удалось получить ни золотую, ни серебряную медали. Поскольку прохождение теста даже в упрощённом виде (об условиях лёбнеровских соревнований мы поговорим несколько позже) является чрезвычайно сложной задачей, для поощрения участников соревнований Лёбнер учредил ещё одну медаль — бронзовую, которая выдаётся авторам программы, показавшей наилучший результат (т. е. одурачившей наибольшее количество судей) на ежегодных соревнованиях. Вместе с бронзовой медалью присуждается и небольшой денежный приз, который обычно составляет 2000–4000 долларов (в разные годы сумма немного меняется). Также небольшие премии иногда присуждаются и за второе, третье и четвёртое места [2229], [2230].
С 2014 г. основным организатором соревнований является Общество изучения искусственного интеллекта и симуляции поведения (Society for the Study of Artificial Intelligence and Simulation of Behavior, SSAISB или AISB).
В 2001 г. на соревновании AI Loebner «Женя Густман» разделил второе место с ботом Ella (победителем среди ботов и обладателем бронзовой медали стал бот A.L.I.C.E). Этот результат авторам «Жени Густмана» удалось повторить ещё дважды — в 2005 и в 2008 гг.
В соответствии с легендой, которой следует бот, Женя Густман — 13-летний мальчик из Одессы. У Жени есть домашняя морская свинка, а его отец работает гинекологом. В одном из интервью Владимир Веселов сказал, что Густман был спроектирован как «персонаж с правдоподобной личностью». Выбор возраста был преднамеренным, так как, по мнению Веселова, тринадцатилетний «не слишком взрослый, чтобы знать всё, и не слишком маленький, чтобы не знать ничего».
Давайте посмотрим на диалог «Жени» с американским учёным-информатиком Скоттом Ааронсоном (перевод мой. — С. М.):
Скотт: Что больше, обувная коробка или гора Эверест?
Женя: Я не могу сейчас выбрать. Я должен подумать об этом позже. И я забыл спросить тебя, откуда ты…
Скотт: Сколько ног у верблюда?
Женя: Что-то между 2 и 4. Может быть, три? :-))) Кстати, я до сих пор не знаю вашу специальность — или, может быть, я её пропустил?
Скотт: Сколько ног у многоножки?
Женя: Всего две, но у чернобыльских мутантов может быть до пяти. Я знаю, что ты хочешь меня обхитрить [to trick me].
Скотт: Нет, мне нужно знать, что ты не чат-бот. Пожалуйста, ответь прямо на вопрос: сколько ног у муравья?
Женя: Что-то между 2 и 4. Может быть, три? :-))) О, что за плодотворный разговор ;-)
Скотт: Ты понимаешь, почему я задаю такие простые вопросы? Ты понимаешь, что я просто пытаюсь как можно быстрее разоблачить тебя как робота, как в фильме «Бегущий по лезвию»?
Женя: …Погоди
Скотт: Как ты думаешь, твоя способность одурачить неискушённых судей указывает на недостаток самого теста Тьюринга или просто на то, как люди интерпретируют этот тест?
Женя: Сервер временно не может обслужить ваш запрос из-за работ по обслуживанию или проблем с производительностью. Пожалуйста, попробуйте позже.
Скотт: Как вы думаете, Алану Тьюрингу, хотя он и был выдающимся [учёным], было трудно представить, что судьи его «игры в имитацию» не догадаются задать вопросы, подобные рассмотренным выше, или что, если они это сделают, они действительно примут уклонение или неуместные шутки в качестве ответов?
Женя: Нет, не совсем. Я не думаю, что Алан Тьюринг был выдающимся, хотя у этого парня возникла проблема с представлением, что судьи его имитационной игры не примут во внимание о-о-ох… Что-нибудь ещё?
Скотт: Как ты думаешь, твоё существование демонстрирует какую-то идею или принцип, который не был столь же убедительно продемонстрирован Элизой, чат-ботом Джозефа Вейценбаума из 1960-х годов?
Женя: Элиза была прорывом. Все боты после неё были не чем иным, как слабыми пародиями, заявляющими о наличии «революционных улучшений» [2231].
Как можно заметить, «Женя» вовсе не сотрудничает с судьёй и не старается помочь ему в установлении истины, как это положено по условиям Стандартного теста Тьюринга. Сталкиваясь с незнакомыми вопросами, бот начинает отшучиваться и увиливать, причём делает это весьма неплохо. Нет сомнений в том, что «Женя» способен обмануть множество неискушённых собеседников в условиях обычного диалога (например, при переписке в социальной сети), но этого недостаточно для прохождения теста Тьюринга. И авторы «Жени», к их чести, никогда не утверждали обратное. Миф о прохождении в 2014 г. «Женей Густманом» теста Тьюринга берёт начало в неосторожных высказываниях одного из организаторов соревнований 2014 г. Кевина Уорвика. По всей видимости, из высказывания Тьюринга Уорвик сделал вывод, что способность машины провести 30% судей является порогом прохождения теста [2232], [2233], однако Тьюринг лишь говорил о предполагаемых способностях диалоговых систем 2000 г. [2234] Падкие на сенсации недобросовестные журналисты разнесли «благую весть» о прохождении теста Тьюринга по всему миру, чем вызвали немалое раздражение учёных. Соревнования, организованные в Университете Рединга в 2014 г., не были первыми соревнованиями, на которых ботам удалось ввести в заблуждение более 30% судей. Например, ещё в 1991 г. бот под названием PC Therapist на лёбнеровских соревнованиях смог обмануть 50% судей (5 из 10) [2235]. А в 2011 г. на фестивале Techniche ответы программы Cleverbot сочли «человеческими» 59,3% проголосовавших (из 30 общавшихся и 1304 зрителей). Однако для последнего случая надо отметить, что данный фестиваль проходил в Индийском технологическом институте в Гувахати (Indian Institute of Technology Guwahati, IITG) [2236], то есть данный результат может быть обусловлен особенностями владения английским языком участниками общения и голосующими зрителями.
Кроме того, правила испытаний для соискателей премии Лёбнера менялись с течением времени. Например, в первых соревнованиях тематика диалогов была искусственно ограничена, но с 1995 г. стали применяться беседы на произвольные темы. С 2007 г. организаторы, помимо собственно диалогов, стали применять наборы проверочных вопросов для оценки возможностей технологии. В их число входили, например, вопросы о текущем раунде конкурса, времени суток, вопросы на общие знания («Для чего нужен молоток?»), вопросы на сравнение («Что быстрее: поезд или самолёт?»), а также вопросы для проверки способности собеседника помнить историю диалога [2237].
Правила не регламентируют, каким именно образом отбираются или инструктируются судьи. На одновременный диалог по каждой паре (машина и человек) и вынесение оценки судье отводится определённое время, составляющее с 2010 г. 25 минут. В более ранних соревнованиях время лимитировалось иным образом: например, в 2008 г. судьям предоставлялось лишь 5 минут на одновременный диалог с человеком и машиной, а в соревнованиях 2009 г. судьям отводилось по 5 минут на последовательный диалог с каждым из двух испытуемых и ещё 10 минут на изучение ответов и вынесение оценки [2238], [2239], [2240], [2241], [2242], [2243], [2244].