KnigaRead.com/
KnigaRead.com » Фантастика и фэнтези » Научная Фантастика » Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Жан-Батист Мишель, "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" бесплатно, без регистрации.
Перейти на страницу:

Итак, какие же слова мы можем использовать в языке без страха, а какие могут сделать нас объектом насмешек со стороны сатириков?

Это слово или нет?

Лексикограф. Создатель словарей; безобидный работяга…

– Сэмюел Джонсон, «Словарь английского языка», 1755 —

Словари (по крайней мере, в принципе) позволяют решить проблему того, что является словом, а что – нет. В конце концов, словари представляют собой каталоги официально одобренных слов, каждому из которых соответствовал список одобренных значений. Многие словари (например, American Heritage Dictionary[93], в четвертом издании которого содержится 116 000 слов[94]) призваны исполнять роль удобного справочника. Другие словари призваны выполнять более амбициозные задачи. К примеру, таким словарем является подробный трехтомный справочник, известный под названием Oxford English Dictionary. Первое издание этого труда вышло в 1928 году, а самое свежее издание OED содержит 446 000 слов[95]. Если вы хотите знать, какие слова составляют официальную часть языка, то словари – это лучшее, к чему можно обратиться. Если слово есть в словаре – то это полноценное слово. Если нет, то нет[96].

Но даже в этом случае перед нами загадка. Как именно лексикографы, создающие словари, узнают, какие слова в них включать?

Существует две теории относительно того, как это работает.

Одна теория заключается в том, что работа лексикографа носит предписывающий характер. Согласно этой точке зрения, лексикографы отвечают за то, что происходит в языке. Создавая словари, они говорят нам, какие слова надо использовать, а какие нет. Именно так относился к лексикографии президент Тедди Рузвельт[97]. В 1906 году он приказал Государственной типографии США использовать более простую орфографию, например, фраза «I have answered your grotesque telephone» должна была писаться как «I hav anserd yur grotesk telefone». Эта идея не понравилась Конгрессу, поэтому изначальная орфография осталась нетронутой. Предписывающая точка зрения на лексикографию до сих пор доминирует во Франции, где правительство периодически публикует официальный документ о правильном использовании и написании слов. В январе 2013 года Journal Officiel порекомендовал заменить английское слово hashtag («хэштег») французским mot-diиse (что можно условно перевести как «слово со значком»). Разумеется, Twitter ответил на это коллективным #ROFL[98]. Проблема предписывающего подхода состоит в том, что неочевидно, какой человек или какая организация должны отвечать за язык[99]. Язык больше любого конкретного правительства, этноса или нации.

Другая идея – имеющая куда больше сторонников, особенно в США, – состоит в том, что работа лексикографа не предписывает, что нам делать, а описывает, что мы делаем, будучи предоставленными сами себе[100]. Согласно этому подходу, лексикографы – это не монархи, а исследователи. Словарь представляет собой карту их открытий.

Однако и у этой идеи есть свои проблемы. Если лексикографы не могут решить, что является словом, а что нет, то насколько велика вероятность ошибки? Можем ли мы в таком случае полагаться на словарь?

В конце концов, лексикографы – это обычные люди. Конечно же, нюансы использования слов интересуют их больше, чем случайного человека на улице. Однако, пытаясь вычислить, какие слова нужно включать в словари, лексикографы обычно делают то же самое, что и все остальные. Они слушают, как говорят другие. Они много читают. Они изо всех сил пытаются выявить возникающие тенденции – какие новые слова стали употреблять? Какими словами перестали пользоваться? Какая новая информация появляется в словарях-конкурентах?

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны[101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.



Возьмем, к примеру, American Heritage Dictionary. Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста[102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*