Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич
Успехи систем в области обработки естественного языка на данном наборе хорошо отражают достижения последних лет. Модель предыдущего поколения Gated-Attention Reader показала на данном наборе точность в 46%, модель BERT — 72%, усовершенствованные версии модели BERT — XLNet и RoBERTa — улучшили точность до 82–83%, а самая новая версия модели BERT — ALBERT-xxlarge — смогла показать на данном наборе рекордную точность в 89,4% [2183].
6.3.3.6 Тесты на понимание естественного языка
Прогресс в решении задач, связанных с пониманием естественного языка, нуждался в появлении стандартизированных тестов для численной оценки этого прогресса. Конечно, для этого можно было бы использовать процедуру, подобную тесту Тьюринга, но на практике такие способы оценки не всегда удобны. Они требуют привлечения людей, значительного времени, а также существенных усилий для обеспечения единообразных условий и статистической значимости тестов. Для того чтобы сделать процедуру оценки быстрой, недорогой и максимально стандартизованной, необходимо устранить из неё проблемный элемент, а именно — человека. Примерно этими же соображениями руководствовались создатели тестов SAT или ЕГЭ, и применение последних показывает, что, решая некоторые проблемы, они создают ряд новых: например возможность утечки условий теста или невозможность использования творческих заданий со свободными развёрнутыми (открытыми) ответами. Разработчики систем ИИ, разумеется, видят недостатки подобных методов, но им важно иметь в распоряжении инструменты для быстрой оценки возможностей новых моделей.
В конце 2018 г. на роль такого инструмента был предложен набор тестов под названием GLUE (General Language Understanding Evaluation, Оценка общего понимания языка) [2184], на смену которому год спустя пришёл его усложнённый вариант — SuperGLUE [2185].
Фактически SuperGLUE объединяет восемь наборов тестов, каждый из которых включает множество однотипных задач.
1. BoolQ (Boolean Questions, Булевские вопросы) [2186] — каждая задача в этом наборе состоит из короткого фрагмента текста (позаимствованного из «Википедии») и вопроса, подразумевающего один из двух ответов: «да» или «нет». При этом текст содержит информацию, необходимую для того, чтобы дать ответ на поставленный вопрос.
2. CB (CommitmentBank, Банк убеждений) [2187] — это корпус коротких текстов, в каждом из которых есть хотя бы одно сложноподчинённое предложение. Сами тексты взяты из трёх источников: The Wall Street Journal, корпуса художественной литературы British National Corpus и датасета Switchboard. Для каждого текста из придаточной части сложноподчинённого предложения вручную были сформулированы утверждения (обычно в прошедшем времени и без отрицания, например: «…Тесс добежит до финиша» перешло в «Тесс добежала до финиша», а «…Оливия не смогла пройти тест» — в «Оливия прошла тест»), при этом составителям пришлось отбросить множество случаев, когда было трудно построить краткий и точный вариант. После этого разметчики указывали, является ли полученное утверждение истинным, ложным или неопределённым (исходя из исходного текста и логики автора). В состав CommitmentBank были включены только те примеры, для которых с ответом было согласно не менее 80% людей-разметчиков. Таким образом, итоговая задача была оформлена как набор пар (текст и утверждение), для каждой из которых необходимо выбрать один из трёх возможных вариантов: 1) утверждение следует из текста; 2) из текста следует утверждение, противоположное данному; 3) утверждение не следует из текста.
3. COPA (Choice of Plausible Alternatives, Выбор правдоподобных альтернатив) [2188] — задачи на установление причинно-следственных связей. При их решении необходимо выбрать одно из двух возможных следствий из некоторого утверждения.
4. MultiRC (Multi-Sentence Reading Computing, Вычисления на основе чтения множества предложений) [2189] — каждая задача этого набора включает в себя небольшой текст, вопрос к нему и набор ответов на этот вопрос. Необходимо определить, какие из этих ответов верны, а какие нет (т. е. каждый вопрос может иметь несколько возможных правильных ответов).
5. ReCoRD (Reading Computing with Commonsense Reasoning Dataset, Вычисления на основе чтения с использованием датасета здравого смысла) [2190] — в этом наборе каждая задача состоит из новостной статьи и вопроса к ней, в тексте которого одно из существительных заменено пропуском. Также приводится список существительных, в отношении каждого из которых необходимо определить, можно ли подставить это слово вместо пропуска. Статьи для теста позаимствованы из CNN и Daily Mail.
6. RTE (Recognizing Textual Entailment, Распознавание текстуальных импликаций) [2191], [2192], [2193], [2194] — этот набор заданий объединяет тесты, используемые на ежегодных соревнованиях по текстуальной импликации ([linguistic] entailment — это построение некоторого вывода на основе имеющихся в тексте посылок, в отечественной лингвистике этот процесс традиционно называют «текстуальной импликацией», отталкиваясь от термина «импликация», означающего логическую операцию следования). Каждое задание состоит из двух утверждений, для которых нужно определить, следует второе утверждение из истинности первого или нет.
7. WiC (Word-in-Context, Слово-в-контексте) — задачи устранения неоднозначности смысла слова. В каждом задании приведены два предложения, в каждом из которых встречается некоторое слово. Необходимо определить, используется ли слово в одном и том же смысле в обоих предложениях. Сами предложения взяты из датасетов WordNet и VerbNet, а также словаря Wiktionary.
8. WSC (Winograd Schema Challenge, Соревнования по схеме Винограда) — задачи разрешения кореферентности. Кореферентностью, или референциональным тождеством, в лингвистике называют отношение между именами в высказываниях, когда имена ссылаются на один и тот же объект, ситуацию или группу объектов или ситуаций (так называемый референт). Например, в тексте «Это Гарольд. Он скрывает боль» местоимение «он» ссылается на некого Гарольда (являющегося в данном случае референтом), а в тексте «Осёл, собака, кот и петух отправились в город Бремен. По дороге животные нашли себе новый дом» существительное «животные» ссылается на референт, представляющий собой группу, состоящую из осла, собаки, кота и петуха. В WSC используется частный случай кореферентности, называемый анафорой [2195]. В случае анафоры слово-отсылка (обычно местоимение), называемое анафором, расположено в тексте после имени, на которое оно ссылается (это имя называется антецедентом). Если порядок следования имени и отсылки противоположный, то такой вид кореферентности называется катафорой. Таким образом, в тексте про Гарольда, скрывающего боль, мы наблюдаем именно анафору, при этом слово «он» является анафором, а слово «Гарольд» — антецедентом.

В WSC каждая задача, называемая «схемой Винограда», заключается в том, чтобы сопоставить местоимение-анафор с одним из имён-существительных, встречающихся в тексте. Для того чтобы произвести такое сопоставление, нужно обладать изрядной толикой здравого смысла и знаний об окружающем мире. Создатель WSC — канадский исследователь в области ИИ Гектор Левеск — назвал свой текст в честь другого известного специалиста в области ИИ — уже знакомого нам Терри Винограда.