Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
106
Мы выбрали тысячу слов из словаря и посчитали, как много из них попадает в исключенные категории. В результате у нас нет исчерпывающего списка темной материи английского языка. Как и в случае темной материи во Вселенной, мы не знаем в точности, из чего она состоит, – мы лишь знаем, что ее очень много.
107
См. All of the Words of the Year, 1990 to Present // American Dialect Society, доступно в сети Интернет: http://goo.gl/JCYMiK.
108
Мы с огромным удовольствием проголосовали за слово skyaking – прыжки с самолета на каяке. При этом нам представляется, что вследствие смертельной опасности, которой подвергаются поклонники этого вида спорта, есть немало эволюционных оснований считать, что такое слово действительно не имеет будущего. Разумеется, к предсказаниям ADS не стоит относиться слишком серьезно; к 2011 году слово «культуромика» вошло в словари Random House и Macmillan. См. Culturomics // Macmillan Dictionary online, доступно в сети Интернет: http://goo.gl/qkg8GE; Culturomics // Dictionary.com, доступно в сети Интернет: http://goo.gl/EmvAhE.
109
Расчеты для промежуточных точек были сделаны с помощью метода линейной интерполяции.
110
Интересно поразмышлять о точных причинах изменений в языке (и о будущем английского языка в частности). См. Erard Michael. English As She Will Be Spoke // New Scientist (29 марта 2008 г.); English Is Coming // Economist (12 февраля 2009 г.), доступно в сети Интернет: http://goo.gl/wcPGt8. Люди уже давно интересовались подобными вопросами. См. Jacobs Joseph. Growth of English-Amazing Development of Language as Shown in New Standard Dictionary’s 450 000 Words // New York Times (16 ноября 1913 г.).
111
Связь между частотой употребления и выравниванием исследуется в работе Bybee Joan L., Morphology: A Study of the Relation Between Meaning and Form. Amsterdam: John Benjamins, 1985. В целом была проведена большая работа по исследованию лингвистических изменений. См., к примеру, Labov William. Transmission and Diffusion // Language 83, no. 2 (June 2007). P. 344–387. Доступно в сети Интернет: http://goo.gl/aZ5M2R; Corbett Greville et al. Frequency, Regularity, and the Paradigm: A Perspective from Russian on a Complex Relation // Bybee J. L., Hopper P. J. (eds.) Frequency and the Emergence of Linguistic Structure. Amsterdam: John Benjamins, 2001. P. 201–228. Эти вопросы также можно изучать с более явной эволюционной точки зрения. См. Pagel Mark. Wired for Culture: Origins of the Human Social Mind. New York: W. W. Norton, 2012; Pagel Mark. Atkinson Quentin D., Meade Andrew. Frequency of Word-Use Predicts Rates of Lexical Evolution Throughout Indo-European History // Nature 449 (11 октября 2007 г.). P. 717–720. Доступно в сети Интернет: http://goo.gl/93WiJ0.
112
Есть много примеров подобных переходов от двух слов в составном понятии к одному слову с дефисом. См., к примеру, NV: rail road, rail-road, railroad («железная дорога»).
113
Слово «секрет» – segreto – связано с тем фактом, что Archivio Segreto Vaticano считается личной собственностью римского папы. Это не значит, что архив обязательно напичкан массой интересных материалов, таких как, скажем, письмо от английского парламента, требующее развода для Генриха VIII, или приказа папы об отлучении от церкви Мартина Лютера, или письма, объявляющего об отречении от трона «гермафродита» королевы Швеции Кристины. К счастью, проделанная в последние годы большая работа по каталогизации значительно упростила поиск книг в архиве.
114
Интересный, однако более не обновляющийся рассказ о проблемах, с которыми поначалу столкнулась Google в работе с метаданными книг, можно найти в весьма информативном блоге Language Log. См. Nunberg Geoff. Google Books: A Metadata Train Wreck // Language Log (29 августа 2009 г.), доступно в сети Интернет: http://goo.gl/AwNArh. C тех пор качество метаданных книг значительно улучшилось.
115
См. Michel2011S.
116
Расчеты, связанные с качеством расшифровки генома, основаны на данных статьи Lander Eric et al. Initial Sequencing and Analysis of the Human Genome // Nature 409, no. 6822 (2001). P. 860–921. Доступно в сети Интернет: http://goo.gl/trMZ4e.
117
Один из новых аргументов юристов заключается в том, что предоставление цифровых копий миллионов текстов, защищенных копирайтом, для чтения (так называемого «потребительского» использования) представляет собой нарушение авторского права. В этой связи можно предположить, что вычисления, производимые с теми же защищенными текстами («непотребительские» виды использования), не являются нарушением, если только результат не включает в себя больших кусков изначального текста. n-грамы представляют собой пример полезного «непотребительского» использования книг, и мы указали на это в экспертном заключении для суда по делу Authors Guild, Inc., et al., v. Google, Inc. См. письмо Эреца Либермана Эйдена и Жана-Батиста Мишеля в суд, 3 сентября 2009 г. (ECF No. 303), Authors Guild, Inc., et al., v. Google, Inc., 770 F.Supp.2d 666 (S.D.N.Y., 22 марта 2011 г.) (No. 05– Civ.-8136). Не так давно этот аргумент был использован в разбирательстве Authors Guild, Inc., et al. v. HathiTrust et al. (S.D.N.Y., 2012). HathiTrust Digital Library предлагает прямой доступ к миллионам оцифрованных книг, полученных от участвующих в проекте библиотек. Во многих случаях эти книги были оцифрованы Google. 10 октября 2011 г. федеральный судья Южного округа Нью-Йорка Гарольд Баэр-мл. вынес решение в пользу HathiTrust. В решении было подчеркнуто, что «непотребительские» вычисления, связанные с большой коллекцией книг, представляют собой «бесценный вклад в прогресс науки и развитие искусств» и что подобная деятельность «вполне подпадает под определение добросовестного использования». Для подкрепления своей точки зрения судья Баэр процитировал экспертное заключение Мэттью Л. Джокерса, Мэттью Сага и Джейсона Шульца, под которым мы также поставили свои подписи; в качестве конкретного примера судья указал на тот же n-грам, который мы использовали во вступлении к этой книге: «частота, с которой авторы используют с течением времени слова is и are в отношении Соединенных Штатов». Вердикт судьи: Brief of Digital Humanities and Law Scholars as Amici Curiae in Partial Support of Defendants’ Motion for Summary Judgment // Authors Guild, Inc., et al., v. HathiTrust et al., 902 F.Supp.2d 445 (S.D.N.Y., 10 октября 2012 г.) (No. 11-Civ.– 06351) 2012 WL 4808939.
118
См. The Colbert Report, 6:38, 7 февраля 2007 г, http://goo.gl/iFMGCt. Пинкер был соавтором Michel2011.
119
Пер. В. Емелина (Прим. пер.).
120
См. Zeitgeist 2010: How the World Searched // Google Zeitgeist, 2011, доступно в сети Интернет: http://goo.gl/OCpY2X.
121
«Вы узнаете ее, когда увидите», разбирательство Jacobellis v. Ohio, 378 U.S. 184 (1963).