Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
15
Таким образом, проблему подсчета овец можно будет считать полностью решенной, если только Вселенная не расширится очень сильно.
16
Согласно расчетам IDC (International Data Corporation), цифровой след человечества вырастет со 130 экзабайт в 2005 году до 40 000 экзабайт (40 зеттабайт) в 2020 г. Иными словами, удвоение объема информации будет происходить каждый год и 10 месяцев. См. выше.
17
См. Facebook Tops 1 Billion Users // Associated Press (4 октября 2012 г.), доступно в сети Интернет: http://goo.gl/nfK32P.
18
См. Einav Liran et al. Learning from Seller Experiments in Online Markets // National Bureau of Economic Research, 2011. Доступно в сети Интернет: http://goo.gl/f9ghir.
19
См. Bond Robert M. et al. A 61-Million-Person Experiment in Social Influence and Political Mobilization // Nature 489, no. 7415 (2012). P. 295–298. Доступно в сети Интернет: http://goo.gl/AQdAS0.
20
См. Song Chaoming et al. Limits of Predictability in Human Mobility // Science 327, no. 5968 (2010). P. 1018–1021.
Доступно в сети Интернет: http://goo.gl/rYlF2v.
21
См. Ginsberg Jeremy et al. Detecting Influenze Epidemics Using Search Engine Query Data // Nature 457 (2009). P. 1012–1014. Доступно в сети Интернет: http://goo.gl/WHEWW.
22
См. Chetty Raj, Friedman John N., Rockoff Jonah E. The Long-Term Impacts of Teachers // National Bureau of Economic Research (декабрь 2011 г.), доступно в сети Интернет: http://goo.gl/C18JQ; Chetty Raj et al. How Does Your Kindergarten Classroom Affect Your Earnings? // National Bureau of Economic Research (март 2011 г.), доступно в сети Интернет: http://goo.gl/N9O6a.
23
См. Silver Nate. FiveThirtyEight, URL: http://www.fivethirtyeight.com; Silver Nate. The Signal and the Noise. New York: Penguin, 2012.
24
Что имеется в виду? Нет смысла оцифровывать каждую копию каждой книги из когда-либо написанных, хотя заметки на полях порой могут оказаться довольно увлекательными. См. Grafton Anthony, Weinberg Joanna. I Have Always Loved the Holy Tongue. Cambridge, MA: Harvard University Press, 2011. С другой стороны, многие издания наиболее знаменитых работ, переиздававшихся на протяжении столетий, порой очень отличаются. И эти различия могут быть весьма серьезными. См., к примеру, Rumsey Eric. Google Book Search: Multiple Editions Give Quirky Results // Seeing the Picture (12 октября 2010 г.), URL: http://goo.gl/6YNld. В случае Google Books цель состоит в оцифровке одной копии каждого издания каждой книги.
25
См. The Stanford Digital Library Technologies Project // Stanford University, URL: http://goo.gl/tstLQ; Google Books History // Google Books, URL: http://goo.gl/ueobb.
26
Отчасти по причинам, приведенным выше, а отчасти и из-за расплывчатости определения книги как физического объекта подсчет количества книг в обычной библиотеке может оказаться непростым делом. Поэтому данные о коллекции каждой библиотеки были взяты со страницы в «Википедии» по состоянию на 18 июля 2013 г. Стоит отметить, что эти цифры не всегда актуальны. Также нужно оговориться, что Стэнфорд уже начинает закрывать физические библиотеки и заменять их «библиотеками без книг». См. Krieger Lisa M. Stanford University Prepares for the «Bookless Library» // San Jose Mercury News (18 мая 2010 г.), доступно в сети Интернет: http://goo.gl/yauezp.
27
См., к примеру, оцифрованное издание книги Klipstein Louis F. Grammar of the Anglo-Saxon Language. New York: George P. Putnam, 1848, доступно в сети Интернет: http://goo.gl/cWRlJ. Стоит отметить, что из юридических и этических опасений Гарвард принял решение выйти из программы Google Books, позволив Google произвести оцифровку лишь материалов, не защищенных копирайтом. См. Mirviss Laura G. Harvard-Google Online Book Deal at Risk // Harvard Crimson (30 октября 2008 г.), доступно в сети Интернет: http://goo.gl/0tYflD.
28
Этот термин не так давно предложен исследователем социальных сетей Сэмюелем Арбесманом. См. Arbesman Samuel. Stop Hyping Big Data and Start Paying Attention to Long Data // Wired (29 января 2013 г.), доступно в сети Интернет: http://goo.gl/X7oEC.
29
Хотя лучшие эмпирические массивы данных малодоступны, социальные сети остаются довольно перспективным полем для исследований. См., к примеру: Watts Duncan J., Strogatz Steven H. Collective Dynamics of «Small-World» Networks // Nature 393, no. 6684 (1998). P. 440–442. Доступно в сети Интернет: http://goo.gl/be3Xmi; Barabаsi Albert-Lаszlу, Albert Reka. Emergence of Scaling in Random Networks // Science 286, no. 5439 (1999). P. 509–512. Доступно в сети Интернет: http://goo.gl/eESUa8; Milo Ron et al. Network Motifs: Simple Building Blocks of Complex Networks // Science 298, no. 5594 (2002). P. 824–827.
30
Стоит отметить, что присутствие юристов в нашей жизни – это не всегда плохо. Так, у одного из авторов этой книги супруга – юрист.
31
Поначалу мы разделили все результаты нашей работы на четыре части: текст исследования, подробное методологическое приложение и два вспомогательных веб-сайта. См. Michel Jean-Baptiste et al. Quantitative Analysis of Culture Using Millions of Digitized Books // Science 331, no. 6014 (14 января 2011 г.), доступно в сети Интернет: http://goo.gl/mahoN; подробный вспомогательный текст, доступный в сети Интернет: http://goo.gl/1e509; Ngram Viewer, Google Books, 2010, URL: http://books.google.com/ngrams; Culturomics. Cultural Observatory, URL: http://www.culturomics.org. Поскольку в наших ссылках мы будем часто обращаться к Michel et al., то обозначим ее как Michel2011. Аббревиатура Michel2011S будет использоваться для отсылки на вспомогательный текст.
32
См. Ngram Viewer 2 и выше; Aiden Erez Lieberman, Michel Jean-Baptiste. Culturomics, Ngrams and New Power Tools for Science // Google Research Blog (10 августа 2011 г.), URL: http://goo.gl/FSbbP; Orwant Jon. Ngram Viewer 2.0 // Google Research Blog (18 октября 2012 г.), URL: http://goo.gl/zOSfg.
33
В 1911 году выдержки из его выступления в городе Сиракьюс, штат Нью-Йорк, появились в Printers’ Ink, первом американском деловом издании по вопросам рекламы. В выдержках приводится первая зафиксированная форма высказывания: «Используйте картинку. Она стоит тысячи слов». Вскоре после этого появилась более компактная форма: «Картинка стоит тысячи слов», а также варианты с использованием «десятка тысяч» и «миллиона». Поначалу все три варианта приписывались Брисбейну. Вполне возможно, что он действительно использовал их все в разных случаях. См. Printers’ Ink 75, no. 1 (6 апреля 1911 г.). P. 17. К 1925 году фразу уже начали приписывать Конфуцию. См. Management Accounting // National Association of Cost Accountants (1925).
34
См. Reimer Karen. Legendary, Lexical, Loquacious Love. Chicago: Sara Ranchouse, 1996. На обложке книги указано: «Карен Реймер переписывает Ив Раймер». прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный прекрасный, – прекрасный. прекрасный. прекрасный. прекрасный… прекрасный… (Прим. ред.)
35