Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.
Очевидно, что это не идеальное определение слова. К примеру, включает ли выражение «английский текст» цитату на испанском, которая должна быть включена в абзац на английском? Должен ли текст быть недавним? Должен ли он исходить из книг? Оцифрованной речи? Интернета? Стоит ли нам принимать во внимание типичные опечатки типа excesss (с лишней буквой s в конце)? А что насчет форм с включением цифр, типа l8r (вариант написания слова later – «позднее»)? Может ли считаться словом 2-грам, типа straw man («соломенное чучело»)? [103]
Однако если оставить в стороне эти вопросы, наше определение выглядит достаточно точным – настолько, что, руководствуясь им, договорившись об объеме проверочного текста и имея несколько мощных компьютеров, любой человек может создать объективный словарь английского языка. В этом смысле наше определение значительно лучше субъективных формулировок, которые можно найти во множестве других работ.
Мы хотели убедиться, что наш новый ципфовский словарь действительно фиксирует современное состояние языка, поэтому мы не просто добавили в базу все имевшиеся тексты[104]. Вместо этого мы взяли десятилетний срез данных – все книги в нашей базе данных опубликованы между 1990 и 2000 годами. Эта коллекция включала в себя более 50 миллиардов 1-грамов. Для того чтобы 1-грам соответствовал установленной нами частоте отсечения (один случай употребления на миллиард), слово должно было появиться в нашей коллекции не менее пятидесяти раз. Итоговый список составил 1 489 337 слов, включая unhealthiness («нездоровье»), 6.24, psychopathy («психопатия») и Augustean («относящийся к эпохе Августа»).
Наш ципфовский список слов представляет собой вполне удобный информационный источник. Если какого-то слова в нем нет, то значит, оно встречается еще реже, чем наименее часто встречающиеся слова в словаре, – соответственно, у нас есть основания считать, что это вообще не слово. Если же оно появляется, то это значит, что оно вполне достойно включения в словарь (а если его там нет, то это может вызвать вполне законное недоумение).
Именно в этом вся прелесть обладания объективным словарем. Все эти годы во время учебы или при игре в «Эрудит» мы использовали для проверки словари. Теперь же, получив независимый способ оценки словарного состава, мы приобрели возможность оценить точность словаря и создавших его лексикографов. Кабинетные лексикографы занимались своим делом на протяжении столетий, но только после появления n-грамов стало возможным появление кабинетных лексикограферологов («лексикограферология» – труд безобидных работяг; «лексикограферолог» – еще более безобидный работяга).
Затем мы задали самый фундаментальный вопрос в области лексикограферологии – какая доля нашего ципфовского списка слов представлена в имеющихся словарях?
Она оказалась на удивление малой. Oxford English Dictionary, самый крупный словарь английского языка, содержит менее 500 тысяч слов. Его лексикон составляет примерно треть нашего списка. Объем всех остальных словарей еще меньше.
Как такое может быть? Неужели лексикографы действительно настолько плохо разбираются в том, что происходит в их собственном языке?
Лексическая темная материя
Мы немного поспешили с выводами. Большинство словарей не претендует на то, чтобы включить все слова, имеющиеся в языке. По сути, составители многих словарей даже стараются исключать те или иные слова, пусть даже часто использующиеся в языке, например[105]:
1. Слова, состоящие не только из букв (например, 3.14 и l8r).
2. Составные слова (whalewatching – «наблюдение за китами»).
3. Нестандартная орфография (untill вместо until – «до тех пор, пока»).
4. Слова, которым сложно дать однозначное описание (AAAAAAARGH).
Поэтому с нашей стороны было бы несправедливым тыкать пальцем в людей, которые даже не пытались включать в словарь определенные типы слов. Чтобы убедиться в том, что составители словарей исключают из них именно то, что планировали, мы рассчитали, какая часть нашего списка слов пришла из указанных выше четырех категорий.
Это сократило наш список с 1,5 миллиона до немногим более миллиона слов. Но все равно наш ципфовский лексикон почти в два раза превышал по объему количество статей в Oxford English Dictionary. Иными словами, даже самый полный словарь английского языка упускает большинство слов. Эти задокументированные слова включали в себя множество ярких понятий, таких как aridification (процесс, в результате которого географический регион становится засушливым), slenthem (музыкальный инструмент) и, что показалось вполне уместным, слово deletable («допускающий удаление»).
Так в чем же состоит проблема словарей?
Ответ – частотность употребления. Судя по всему, составители словарей проводят отличную работу по отбору самых частых слов. В этом смысле словари совершенно идеальны: они действительно содержат буквально 100% всех слов – если только эти слова встречаются чаще, чем один раз на миллион, например слово dynamite («динамит»). Если слово появляется хотя бы один раз в случайной стопке из десяти книг, словарь зафиксирует его и даст ему определение.
Однако у лексикографов возникает немалая проблема с редкими словами. Как только частота слова оказывается меньше, чем одно на миллион, шансы на то, что оно не будет включено в словарь, резко возрастают. Если посмотреть на слова с частотой употребления немногим меньшей, чем одно на миллиард, в словари будет включена лишь четверть.
Стоит помнить о правиле, установленном Ципфом, – большинство слов встречается достаточно редко. Соответственно, если словари упускают из вида большинство редких слов, то можно сказать, что они упускают большинство слов как таковых.
В результате оказывается, что 52% английского языка – большинство слов, используемых в книгах, – представляют собой лексическую темную материю. Подобно темной материи в космосе, составляющей основной объем Вселенной, лексическая темная материя составляет основную массу нашего языка, которая не может быть протестирована обычными способами[106].
Как только ограничения традиционной лексикографии стали понятными, эта область работы начала меняться. Новые игроки на рынке, такие как wordnik.com, wiktionary.com и urbandictionary.com, перестали полагаться на кабинетных лексикографов в деле создания масштабных онлайн-словарей. Напротив, они пытаются использовать силу огромного количества пользователей для документирования всей темной материи – по тому же пути идут и традиционные словари типа OED. Для ускорения работы они дополняют существующие методы новым подходом обработки данных в лексикографии (и даже вплотную приближаются к лексикограферологии!).