Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
114
Интересный, однако более не обновляющийся рассказ о проблемах, с которыми поначалу столкнулась Google в работе с метаданными книг, можно найти в весьма информативном блоге Language Log. См. Nunberg Geoff. Google Books: A Metadata Train Wreck // Language Log (29 августа 2009 г.), доступно в сети Интернет: http://goo.gl/AwNArh. C тех пор качество метаданных книг значительно улучшилось.
115
См. Michel2011S.
116
Расчеты, связанные с качеством расшифровки генома, основаны на данных статьи Lander Eric et al. Initial Sequencing and Analysis of the Human Genome // Nature 409, no. 6822 (2001). P. 860–921. Доступно в сети Интернет: http://goo.gl/trMZ4e.
117
Один из новых аргументов юристов заключается в том, что предоставление цифровых копий миллионов текстов, защищенных копирайтом, для чтения (так называемого «потребительского» использования) представляет собой нарушение авторского права. В этой связи можно предположить, что вычисления, производимые с теми же защищенными текстами («непотребительские» виды использования), не являются нарушением, если только результат не включает в себя больших кусков изначального текста. n-грамы представляют собой пример полезного «непотребительского» использования книг, и мы указали на это в экспертном заключении для суда по делу Authors Guild, Inc., et al., v. Google, Inc. См. письмо Эреца Либермана Эйдена и Жана-Батиста Мишеля в суд, 3 сентября 2009 г. (ECF No. 303), Authors Guild, Inc., et al., v. Google, Inc., 770 F.Supp.2d 666 (S.D.N.Y., 22 марта 2011 г.) (No. 05– Civ.-8136). Не так давно этот аргумент был использован в разбирательстве Authors Guild, Inc., et al. v. HathiTrust et al. (S.D.N.Y., 2012). HathiTrust Digital Library предлагает прямой доступ к миллионам оцифрованных книг, полученных от участвующих в проекте библиотек. Во многих случаях эти книги были оцифрованы Google. 10 октября 2011 г. федеральный судья Южного округа Нью-Йорка Гарольд Баэр-мл. вынес решение в пользу HathiTrust. В решении было подчеркнуто, что «непотребительские» вычисления, связанные с большой коллекцией книг, представляют собой «бесценный вклад в прогресс науки и развитие искусств» и что подобная деятельность «вполне подпадает под определение добросовестного использования». Для подкрепления своей точки зрения судья Баэр процитировал экспертное заключение Мэттью Л. Джокерса, Мэттью Сага и Джейсона Шульца, под которым мы также поставили свои подписи; в качестве конкретного примера судья указал на тот же n-грам, который мы использовали во вступлении к этой книге: «частота, с которой авторы используют с течением времени слова is и are в отношении Соединенных Штатов». Вердикт судьи: Brief of Digital Humanities and Law Scholars as Amici Curiae in Partial Support of Defendants’ Motion for Summary Judgment // Authors Guild, Inc., et al., v. HathiTrust et al., 902 F.Supp.2d 445 (S.D.N.Y., 10 октября 2012 г.) (No. 11-Civ.– 06351) 2012 WL 4808939.
118
См. The Colbert Report, 6:38, 7 февраля 2007 г, http://goo.gl/iFMGCt. Пинкер был соавтором Michel2011.
119
Пер. В. Емелина (Прим. пер.).
120
См. Zeitgeist 2010: How the World Searched // Google Zeitgeist, 2011, доступно в сети Интернет: http://goo.gl/OCpY2X.
121
«Вы узнаете ее, когда увидите», разбирательство Jacobellis v. Ohio, 378 U.S. 184 (1963).
122
См. Wright Wilbur et al. The Papers of Wilbur and Orville Wright. New York: McGraw-Hill, 2000; Jakab Peter L. Visions of a Flying Machine: The Wright Brothers and the Process of Invention. Washington, DC: Smithsonian Institution Press, 1990; Hagler Gina. Modeling Ships and Space Craft: The Science and Art of Mastering the Oceans and Sky. New York: Springer, 2013.
123
Видео этого события можно найти в статье: Steele Flubs «Favorite Book» Reference During Debate // Newsmax (3 января 2011 г.), доступно в сети Интернет: http://goo.gl/8hh40.
124
См. Medea Andra. Carol Gilligan // Jewish Women: A Comprehensive Historical Encyclopaedia, доступно в сети Интернет: http://goo.gl/LN2al.
125
Английский перевод проведенного Андвордом в 1930 году исследования можно увидеть в статье Andvord Kristian F. What Can мы Learn by Following the Development of Tuberculosis from One Generation to Another? // International Journal of Tuberculosis and Lung Disease 6, no. 7 (2002). P. 562–568. Обзор классических исследований когорт приведен в Doll Richard. Cohort Studies: History of the Method // Sozial– und Präventivmedizin 46, no. 2 (2001). S. 75–86. Доступно в сети Интернет: http://goo.gl/dRJKCp. Весь анализ в этой главе основан на Michel2011 и подробно описан там и в Michel2011S.
126
Позднее Верес и журналист, писавший на научные темы, Джон Богэннон использовали n-грамы для составления научного Зала славы, в который вошли наиболее часто упоминаемые современные ученые. Они рассчитали славу каждого ученого в миллидарвинах (один миллидарвин – одна тысячная славы Дарвина). Самым знаменитым ученым, по их версии, оказался Бертран Рассел, антивоенные взгляды которого сделали его крайне противоречивым субъектом. А самый знаменитый из ныне живущих ученых – Ноам Хомский с показателем 507 миллидарвинов. См. Veres Adrian, Bohannon John. The Science Hall of Fame // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/6g8b7X.
127
Небесный дом Адриана имеет орбитальный период, составляющий 3,47 земных лет.
128
Составление списка пятидесяти самых знаменитых людей, родившихся между 1800 и 1950 годами, связано с целым рядом серьезных технических сложностей. Одна из проблем заключается в том, чтобы решить, к кому именно относится имя. К примеру, о ком говорит n-грам Winston Churchill – о государственном деятеле, родившемся в 1874 году, о его внуке, родившемся в 1940-м, о писателе по имени Уинстон Черчилль, родившемся в 1971-м, или же представляет собой неразделимую смесь всех трех? Для решения этой проблемы Верес использовал контекстную информацию: например, сравнивал дату рождения каждого Уинстона Черчилля с датой появления n-грама, с учетом того, что страница в «Википедии» с названием Winston Churchill относится по умолчанию к Winston1874, и того, что Winston1874 просматривается в «Википедии» значительно большее число раз, чем остальные кандидаты с тем же именем. Эти и другие критерии были применены в отношении сотен тысяч имен. Подробнее об этом см. Michel2011S.
129
См. Michel2011, Michel2011S.
130
Полный список 25 наиболее знаменитых людей, родившихся между 1800 и 1920 годами, в каждой из областей деятельности приведен в Michel2011S. В нем содержатся имена Марии Кюри (1867, ученый), Марселя Дюшана (1887, художник), Клода Шеннона (1916, математик), Хамфри Богарта (1899, актер), Вирджинии Вулф (1882, писатель) и Уинстона Черчилля (1874, политик).