KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Базы данных » Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

Охота на электроовец. Большая книга искусственного интеллекта - Марков Сергей Николаевич

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Марков Сергей Николаевич, "Охота на электроовец. Большая книга искусственного интеллекта" бесплатно, без регистрации.
Перейти на страницу:

И наконец, четвёртое измерение — непредсказуемость — переносит на один край шкалы удивление, затем, отделённые заметным промежутком, почти в центре шкалы оказываются отвращение и страх, а на противоположном полюсе в виде плотной группы сосредоточены все остальные эмоции, причём ближе всего к концу шкалы оказывается чувство вины.

Исследование Шерера и его коллег стало важным этапом в изучении семантики эмоциональных терминов. В частности, его результаты были использованы для совершенствования популярного инструмента для эмоциональной самооценки (а также, например, для оценки «эмоций» роботов [2455]), так называемого Женевского колеса эмоций (Geneva Emotion Wheel, GEW) [2456], [2457].

Возможность построения эмоционального семантического континуума позволяет подходить к задаче определения эмоциональной окраски речи или текста не как к задаче классификации, а как к задаче регрессии. В таком случае от модели потребуется не предсказание метки конкретного эмоционального класса (в соответствии с выбранным эмоциональным словарём), а оценка величины каждой из выбранных компонент эмоции. Для этой цели в стандарте EmotionML 1.0 помимо словарей введены ещё и системы измерений эмоций. Кроме упомянутой нами системы FRSE (GRID) с четырьмя шкалами, стандартом предусмотрена возможность использования пространства PAD (Pleasure, Arousal, and Dominance, Удовольствие, возбуждение и доминирование), основанного на трёх соответствующих шкалах, разработанного [2458] американским профессором Альбертом Меграбяном, а также плоской шкалы интенсивности [intensity] эмоции.

Помимо способов представления эмоций, стандарт EmotionML 1.0 содержит в себе также словари характеристик эмоций и словарь тенденций действий (из работ Нико Фрейды) [2459], [2460]. Наличие стандарта представления эмоциональной информации весьма полезно для сферы эмоциональных вычислений. Оно позволяет разработчикам не изобретать каждый раз велосипед и опираться на материал, наработанный в результате многолетних исследований в области психологии.

Итак, мы более-менее разобрались с выбором способа представления эмоциональной информации. Допустим, мы решили присвоить каждой фразе из обучающей выборки метку класса, взяв за основу «большую шестёрку» эмоций. Теперь необходимо собрать данные и выполнить разметку, для чего можно использовать какую-либо краудсорсинговую платформу. Иногда вам может подойти какой-либо из публичных датасетов, однако наилучший результат обычно получается, используя данные из того же канала и того же бизнес-процесса, в котором планируется применение модели распознавания эмоций. Однако особенность процесса может сыграть с разработчиком злую шутку. Например, если вы планируете обучать вашу модель на данных из колл-центра, занимающегося взысканием просроченной задолженности, то вы должны быть готовы к тому, что абоненты будут редко радоваться, поэтому, чтобы получить более-менее приличный по объёму датасет со сбалансированной численностью классов, вам придётся просеять огромное количество информации. Кроме того, подавляющее количество фраз практически в любом голосовом канале имеет нейтральную окраску. В принципе, можно объединить в один несколько датасетов (при условии сбалансированности численности классов), использовав публичные массивы или разметив какой-либо эмоционально богатый источник записей (например, ролики с YouTube), однако часто оказывается, что при использовании публичных датасетов для обучения точность на своих данных оказывается ниже декларированной. Поэтому судить о качестве модели можно только на основе данных из источников, с которыми модель будет работать в дальнейшем. Ещё одной альтернативой является создание наборов эмоциональных записей усилиями участников краудсорсинговой платформы, но практика показывает, что людям редко удаётся правдоподобно изображать эмоции на заказ, поэтому без дополнительной фильтрации ценность собранных таким образом записей весьма сомнительна.

Ещё одной проблемой является собственно разметка фраз, поскольку люди сами не всегда сходятся в оценках. Кто-то слышит в некоторой фразе нейтральную окраску, а кто-то в той же фразе подозревает скрытую печаль. Если вы используете при оценке систему, основанную на шкалах, то значения оценок по каждой шкале можно подвергнуть усреднению. При использовании словаря придётся либо доверять большинству оценщиков, либо отбрасывать фразы, получившие неоднозначные оценки.

При оценке эмоциональной окраски речи люди неизбежно будут ориентироваться как на текст сказанного, так и на те или иные звуковые признаки. Если вы используете видеозаписи человеческой речи, то к числу признаков добавятся ещё и признаки из видеоканала: выражение лица говорящего, а возможно, и движения его тела. В таком случае вам понадобится модель, которая сможет получать на вход мультимодальную информацию. При этом важно учитывать, что некоторые компоненты этой информации будут довольно универсальными для разных культур (например, то, каким образом эмоции, испытываемые человеком, влияют на его голос), а некоторые будут весьма специфичны для конкретной культуры (например, тот же язык — не факт, что нейронная сеть, которая обучалась на эмоциях людей — носителей одного языка, будет применима для распознавания эмоций носителей другого языка). Поэтому набор используемых модальностей будет влиять на возможность использования публичных массивов данных.

6.5.4 Наборы данных для анализа эмоций

Уже в начале 2000-х гг. исследователям было доступно множество наборов данных эмоциональной речи. Например, обзор [2461], выполненный в 2003 г. Димитриосом Верверидисом и Константином Котропулосом, включает в себя 32 базы данных эмоциональной речи, из них 11 содержат английскую речь, 7 — немецкую, 3 — японскую, 3 — испанскую, 2 — нидерландскую, и ещё семь языков (включая русский) встречаются лишь единожды. Для разметки этих баз использовались различные эмоциональные словари. Наиболее представленными в датасетах эмоциями оказались: гнев [anger], печаль [sadness], счастье [happiness], страх [fear], отвращение [disgust], удивление [surprise], скука [boredom] и радость [joy]. Некоторые из изученных Верверидисом и Котропулосом массивы, помимо аудиозаписей, включают в себя видео и записи движений гортани, а один — информацию о частоте биения сердца, электромиограмму (запись электрических сигналов, полученных в результате регистрации сокращений мышц) мышцы, сморщивающей бровь (Musculus corrugator supercilii), а также сведения об изменении гальванического сопротивления кожи (как индикатора потоотделения). Авторы ещё одного датасета (правда, с единственным испытуемым) включили в него электроэнцефалограмму.

Несмотря на такое разнообразие данных, чтение сводной таблицы, приведённой в исследовании, оставляет противоречивые ощущения. Лишь восемь датасетов содержат в себе натуральную эмоциональную речь, остальные основаны на образцах речи, в которых люди лишь симулировали различную эмоциональную окраску речи. Если брать только натуральную речь, то самый большой (по количеству представленных в нём людей) датасет содержит записи 780 человек, однако всё это — записи голосов детей. Если же брать «взрослые» датасеты, то этот показатель сразу же сокращается до 58 человек для немецкого языка и 40 для английского. Даже если брать в расчёт наборы данных с симуляцией эмоциональной окраски речи, то максимальное число людей, речь которых положена в основу датасета, составляет лишь 125. Можно ли всерьёз рассчитывать, что такого небольшого объёма данных достаточно для обучения эффективной классифицирующей модели на основе нейронных сетей?

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*