Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Поскольку публикация разработчиков BlenderBot вышла в свет позже статьи создателей Meena, исследователи Facebook решили сравнить свои результаты с результатами коллег из Google. Задача осложнялась тем, что, в отличие от создателей BlenderBot, авторы Meena не спешили выкладывать свою модель в свободный доступ, поэтому специалистам Facebook пришлось довольствоваться сотней опубликованных записей диалогов с участием Meena. Оценщикам-людям показывали пары диалогов, в одном из которых собеседником человека выступал BlenderBot, а в другом — Meena. При этом оценщикам задавали два вопроса: «С кем бы вы предпочли общаться в ходе длительной беседы?» (оценка привлекательности) и «Какой из собеседников общается более по-человечески?» (оценка человекоподобия) [2274], [2275]. По обеим метрикам победителем оказался BlenderBot (75 : 25 в оценке привлекательности и 67 : 33 в оценке человекоподобия).
Более того, BlenderBot неплохо смотрелся даже в сравнении с людьми: в одном из экспериментов оценщики отдали предпочтение диалогам с его участием при сравнении с диалогами «человек — человек» в 49% случаев. Впрочем, авторы бота пишут в своей статье, что далеки от мысли, что им удалось полностью решить задачу ведения диалога с открытой предметной областью [2276], [2277]. Не менее впечатляющих результатов удалось достичь исследователям компании Baidu, из-под «пера» которых в 2020–2021 гг. последовательно вышли диалоговые модели PLATO [2278], PLATO-2 [2279] и PLATO-XL [2280]. Для оценки качества диалоговых моделей китайские исследователи используют свои метрики, представляющие собой развитие SSA, но в отличие от последней в PLATO вместо двух шкал оценки используются четыре: естественность [fluency], связность [coherence], информативность [informativeness] и общее качество [overall], а в PLATO-XL — пять: связность [coherence], противоречивость [inconsistency], информативность [informativeness], галлюцинации [hallucination] и вовлечённость [engagingness].
Впрочем, в наши дни для оценки качества диалоговых моделей активно продолжают использовать и простые попарные (side-by-side) сравнения по принципу: «какие реплики нравятся вам больше?» Например, на платформе Chat Arena [Чат-арена] любой желающий может дать сравнительную оценку ответов разных моделей, на основе чего формируется рейтинг LMSys (Large Model Systems Organization, Организация систем больших моделей) [2281].
Словом, как и во многих других творческих задачах, проблема оценки качества полученных результатов в диалоговых системах стоит довольно остро. Тем не менее значительный прогресс, произошедший в этой области за последние годы, заметен невооружённым глазом. Идеи BlenderBot и Meena получили дальнейшее развитие в следующем поколении диалоговых моделей, таких как LaMDA [2282], Anthropic assistant [2283], WebGPT [2284], BlenderBot 2 [2285], BlenderBot 3 [2286], Sparrow [2287] и, наконец, ChatGPT [2288], [2289] и его многочисленные аналоги, о которых мы поговорим чуть позже.
6.4 Машина учится говорить
Врач: ...Юра, смотри на свои руки, смотри на свои пальцы, которые напрягаются всё больше и больше. Сейчас я скажу «три», и руки станут неподвижными. Внимание: один, два, три, и руки неподвижны. Ты не можешь двигать руками. Ты пытаешься шевелить руками, но руки твои неподвижны. Тебе трудно делать тонкие дифференцированные движения. Твои руки абсолютно неподвижны. А теперь я сниму это состояние, и ты будешь говорить. Только громко и чётко, свободно и легко, не боясь своего голоса и своей речи. Если ты будешь говорить сейчас, ты будешь на всю жизнь говорить. Громко и чётко! Внимание. На меня смотри. При слове «три» я снимаю напряжение с твоих рук и с твоей речи. Раз, два, три — громко и чётко — я могу говорить! Давай!
Юра: Я-мо-гу-го-во-рить!
6.4.1 Первые попытки синтеза речи
Мечты о говорящих машинах стары как мир. В древнекитайском трактате «Ле-цзы» (列子, буквально — «[Трактат] учителя Ле»), составленном предположительно в IV в., можно найти упоминание человекообразного автоматона, созданного древним мастером по имени Ян Ши в годы правления императора Му-вана (IX в. до н. э.). Среди прочих талантов этого устройства была способность петь (не фальшивя). Другой говорящий человекоподобный механизм, в соответствии со средневековой легендой, был создан Альбертом Великим, знаменитым философом, теологом и учёным, наставником Фомы Аквинского. Для изготовления устройства, получившего название «андроид» (т. е. «подобный человеку»), Альберт Великий обратился за помощью к «ангелам преисподней» [2290]. Поминая историю с говорящей головой Сильвестра II, это был уже не первый случай, когда подрядчики из ада помогали святым отцам с устройствами для синтеза речи. Если же не принимать в расчёт эти и другие легендарные приспособления древних, то первенство в создании говорящих устройств принадлежит механикам конца XVIII в., одним из которых был уже знакомый нам изобретатель «шахматного автомата» Вольфганг фон Кемпелен. Причём, в отличие от самого знаменитого изобретения фон Кемпелена, его говорящие приспособления не были плодами высокотехнологичного мошенничества. Изобретатель оставил после себя обстоятельный трактат под названием «Механизм человеческой речи вместе с описанием говорящей машины» (Mechanismus der menschlichen Sprache: nebst der Beschreibung seiner sprechenden Maschine) [2291], благодаря которому созданное им устройство неоднократно воспроизводилось. Например, в 2007 г. усилиями немецких учёных Фабиана Бракхане и Доминика Бауэра была создана реплика «говорящей» машины фон Кемпелена [2292].

В результате своих исследований фон Кемпелен пришёл к выводу, что человеческая речь возникает в результате взаимодействия речевого тракта и ротовой полости, кроме того, при произнесении взрывных согласных могут быть задействованы язык и губы. Идея Кемпелена заключалась в механическом моделировании речевого аппарата человека. Созданная фон Кемпеленом машина была способна «произносить» отдельные звуки, слова и даже целые фразы.
Внешне машина фон Кемпелена представляла собой деревянный ящик с двумя отверстиями для рук оператора. К нему была присоединена напорная камера — кожаные мехи, выполнявшие роль лёгких. Аналогом голосовых связок был вибрирующий язычок, а роль речевого тракта выполняла кожаная трубка. Изменяя руками её форму, можно было производить гласные звуки. Согласные же получались при прохождении воздуха через четыре сужающихся прохода, которые нужно было зажимать пальцами.
Фон Кемпелен утверждал, что для того, чтобы научиться управляться с машиной, обычно достаточно двух-трёх недель тренировок. Машина была способна вполне отчётливо «произносить» несколько сотен слов, причём не только коротких, таких как mama [мама] или papa [папа], но и довольно длинных, таких, например, как Mississippi [Миссисипи] или Constantinopel [Константинополь]. При этом голос машины звучал монотонно — длину вибрирующего язычка можно было изменять, но не во время работы [2293].