Коллектив Авторов - Цифровой журнал «Компьютерра» № 115
Эк меня понесло! Короче говоря, один из разработчиков, Дмитрий Силницкий, зная о моих слабостях в сфере интерпретации смыслов и дата-майнинга, прислал на тестирование демо-версию совершенно уникального движка, который выполняет сравнительный анализ текстов по авторскому стилю и жанру.
При этом движок понятия не имеет о существовании автора имярек, да и вообще не догадывается о смысле слов и денотатах в принципе. Основа движка - графематический анализ, оперирующий лишь цепочками языковых символов - знаками, буквами и словоформами!
Для хотя бы приблизительного объяснения этого монстра позволю небольшую цитату из теоретического сопровождения разработок (текст Игоря Ножова из РГГУ):
«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных. Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.
Графематический анализ выполняет три функции:
1. отсечение стоп-слов в тексте;
2. разбиение данных на три потока;
3. индексация каждого потока.
Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:
- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);
- аббревиатуры — названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);
- полные словоформы»
В результате столь необычного и внешне совершенно схоластического анализа мы получаем более, чем осмысленные результаты. Именно созерцание практических результатов произвело на меня неизгладимое впечатление.
Я получил демо-версии аналитического движка для двух баз данных. Первая — англоязычная — проводила стилистический и жанровый анализ относительно хоть и скромной, но вполне репрезентативного массива данных, насчитывающего 2995 авторов и 6266 произведений. Вторая — русскоязычная — чисто номинальная — лишь 700 книг авторов, выражающих мысли на великом и могучем.
Естественно я начал тестирование с себя любимого: ввел в анализатор текст книги «Как зовут вашего бога». На выходе получил такой результат:
Как видите графематический анализатор опознал мой стиль почти с абсолютной точностью — коэффициент корреляции 95,84 %! Далее идет Вильгельм Адам (кто это?) и много всяких незнакомых товарищей — вплоть до Ильфа и Петрова (62,70 %) и Михаила Веллера (42,66%).
Проверим теперь анализатор на коротких текстах — ввожу «Дело русских медведей», то есть одну из последних Голубятен:
Забавно, не правда ли? Корреляция с самим собой пропала, что не удивительно: на 5 тысячах знаков никакой глубины ожидать не приходится. Зато всплыли чужие ассоциации. Так мой сегодняшний стиль демонстрирует самый высокий коэффициент стилистической и жанровой корреляции с Михаилом Веллером (55,76 %). Далее следует Вячеслав Алексеев (это кто?), Хорхе Луис Борхес (я старался!), Шарль Бодлер (откуда анализатор знает про моего самого любимого поэта?!) и т.д. Даже обожаемый Аутагава Рюноскэ присутствует в первой десятке корреляции!
Тысяча чертей: но ведь это же не в бровь, а в самый глаз!
Как и полагается, честному смекалкину, советского замеса, я тут же захотелось всунуть лом между приводной цепью и шестернями анализатора, поэтому скормил ему голубятню образца 2004 года («Лингвистический анализ одного отстойника: призраки ФИДО в XXI веке»)!
Опять нет прямой корреляции с автором, но подтвердился Веллер на первом месте. И Рюноскэ. Зато исчез Бодлер (старею?).
Признаюсь, результат сразил меня наповал. Понимаете, в чем дело: я же очень хорошо знаю креативные импульсы, наполняющие мои тексты. Меняется рациональное осмысление письма, его техника, приемы, стилистические фигуры и уловки, но стилистическую основу изменить нельзя — она сидит глубоко в подсознании! И там у меня — кладезь морализма, детского идеализма, романтизма, замешанного на трагичном восприятии жизни. Рюноскэ и Бодлер — очень точное описание моих чувств, преломленных через создаваемые тексты. Плюс - l’art naif на уровне семантики, синтаксиса, подбора метафор.
Все эти довольно своеобразные жанровые и стилистические особенности моих текстов, отделенных друг от друга 9 годами, графематический анализатор уловил поразительным образом! Не зная ни имен, ни культурологических контекстов автора! Не говоря уже о консистентности стиля и жанра во времени (9 лет дистанции все-таки!). Потрясающе!
Ради чистоты эксперимента подверг жанрово-стилистическому анализу текст Михаила Веллера («Легенды Арбата»):
Текст большой, поэтому анализатор безупречно определяет первым в списке самого автора! Забавно, что Сергей Михайлович Голубицкий числится в корреляционном списке Веллера под номером 11 (44,26 %)! Вот она — диалектика взаимовлияния :)
Теперь — Юрий Бондарев («Берег»):
И тот же результат — первым в списке корреляций — сам автор (78,48 %), далее следуют Александр Абрамов, Василий Аксенов, Стругацкие, Акунин.
Дмитрий Силницкий со товарищи трезво отдают себе отчет о непомерной работе, которая предстоит до того, чтобы придать концепту сколько-нибудь практический (не говоря о товарном!) вид. Самое, однако, главное, что уже сейчас четко вырисовываются как минимум несколько аспектов применения этой разработки: во-первых, на основе графематического анализатора можно создать платформу для продвижения неизвестных авторов и разработать систему книжных рекомендаций; во-вторых, можно построить интеллектуальный журнал типа ZITE, который будет задействовать совершенно иные критерии для кастомизации потребительского контента (жанрово-стилистические — и это мне кажется будет посильнее Фауста Гете на фоне современного чисто тематического — «топики» и «лайки» — подхода); в-третьих, можно будет разработать самые разнообразные системы для тестирования и типизирования личности.
И это — лишь на поверхности. Лингвистические методы анализа действительности столь обширны и универсальны, что навскидку даже затрудняюсь обозначить хоть приблизительно глобальные сферы применения. Психологическая (и психиатрическая) терапия? Извольте! Дата-майнинг стратегического назначения? Не вопрос! Банальная информационная разведка? You bet! Полиграф? Да вот он — уже тут! Ну и так далее.
Короче говоря, я радуюсь, что так много жизни пульсирует вокруг и не все еще потеряно!
К оглавлению