Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Разумеется, это не идет ни в какое сравнение с масштабами сделанного Галилеем. Современный мир уже существует; Солнце уже находится в центре Солнечной системы, и так далее, и тому подобное. Все уже знают, что «скопы» – это хорошо. Но, как мы тогда подумали, этот новый вид «скопа» может оказаться достаточно интересным для того, чтобы Гарвард позволил нам наконец защититься. А по сути, это единственное, на что вы можете надеяться, будучи таким же голодным, бедным и слишком образованным, как и типичный соискатель научной степени в Гарварде.
Пока мы размышляли над столь отвлеченными материями, вокруг нас разворачивалась революция, в которую мы смогли сполна погрузиться и даже оказаться в авангарде миллионов людей, разделяющих наше странное увлечение. В основе своей эта революция больших данных связана с тем, каким образом мы, люди, создаем и сохраняем историческую память о своей деятельности. Эта революция изменит то, как мы видим самих себя. Мы сможем создавать новые «скопы», благодаря которым наше общество станет еще эффективнее исследовать свою природу. Большие данные изменят гуманитарные науки, преобразуют общественные науки и заставят пересмотреть природу связей между миром коммерции и «башней из слоновой кости». Чтобы лучше понимать, как это стало возможным, давайте внимательнее взглянем на исторические данные – от скромных истоков до вездесущего настоящего.
Как считать овец
Десять тысяч лет назад доисторические пастухи время от времени теряли своих овец. Воспользовавшись советом других доисторических людей, страдавших от бессонницы, пастухи принялись их считать. Эти первые в истории счетоводы использовали для пересчета овец камни, по аналогии с тем, как нынешние игроки в покер используют фишки для подсчета своего выигрыша.
И это отлично сработало. На протяжении следующих четырех тысяч лет, по мере того как люди обладали все большим количеством различных товаров, они использовали простой инструмент под названием «резец», чтобы вырезать определенные изображения на камнях. Эти значки изображали различные типы объектов, требующих подсчета. Со временем, в IV тысячелетии до н. э., кто-то решил, что иметь дело с огромным количеством камней – аналогом денежной мелочи в каменном веке – крайне неудобно. Куда проще казалось взять один по-настоящему большой камень и использовать резец для того, чтобы покрыть его особыми орнаментами с каждой стороны. Так зародилась письменность[11].
Теперь может показаться удивительным, что такая обыденная вещь, как желание считать овец, стала стимулом для развития такой фундаментальной вещи, как письменный язык. Однако стремление пользоваться письменными данными всегда шло рука об руку с экономической деятельностью, поскольку сделки не имеют смысла, если вы не можете четко проследить, что кому принадлежит. Как таковая, ранняя человеческая письменность направляется заключением сделок (dealing) и созданием колеса (wheeling) – ставками в спорах, расписками и контрактами. Задолго до того, как у нас появились писания пророков (prophets), люди делали записи о прибылях (profits). По сути, многие цивилизации так никогда и не дошли до настоящей письменности и не оставили после себя ту литературу, которую мы часто связываем с историей культуры. В лучшем случае от этих древних обществ до нас дошли кучи расписок. И если бы не те коммерческие предприятия, которые создали эти данные, мы бы знали куда меньше о культурах, в которых они существовали. Теперь такое положение дел представляется вполне закономерным. В отличие от своих предшественников, многие из коммерческих предприятий в наши дни создают данные не просто как побочный продукт своего бизнеса. Компании типа Google, Facebook и Amazon создают инструменты, позволяющие пользователям представлять себя и взаимодействовать с другими в Интернете. Работа этих инструментов позволяет создавать цифровые, личные и исторические данные.
Основной бизнес таких компаний как раз и заключается в записи человеческой культуры.
И дело касается не только фиксации информации, предназначенной для общего потребления, типа веб-страниц, блогов и онлайн-новостей. Все чаще в Сети происходит и наше частное общение – посредством электронных писем, Skype или систем текстовых сообщений. Значительная их доля сохраняется (можно считать, что и вечно), причем иногда в нескольких копиях. Идет ли речь о Twitter или LinkedIn, наши личные и деловые отношения управляются Сетью и фиксируются в ней. Каждый раз, «плюсуя», «лайкая» тексты или отправляя электронные открытки, мы оставляем цифровые «отпечатки пальцев». Google будет помнить каждое слово написанного нами гневного электронного письма даже тогда, когда мы сами забудем имя человека, которому его отправляли. Фотографии в Facebook напомнят нам о подробностях вечера, проведенного накануне в баре, даже если мы ничего не помним из-за похмелья и жуткой головной боли. Если мы пишем книгу, Google сканирует ее; если мы делаем фотографию, она хранится на Flickr; а если мы снимаем видео, YouTube позволяет желающим его посмотреть.
Проживая современную жизнь, все активнее проводя время в Интернете, мы оставляем все более заметный след из цифровых «хлебных крошек» – личные исторические данные потрясающей глубины и значительного масштаба.
Большие данные
О каком масштабе идет речь?
В компьютерных науках принято считать единицей измерения информации бит (сокращение от binary digit – двоичное число). Бит можно представить себе в виде ответа на вопрос «да или нет», где 1 – это «да», а 0 – это «нет». Группа из восьми битов называется «байт» [12].
В настоящее время цифровой след обычного человека – то есть годовой объем данных, создаваемых в мире на душу населения, – составляет немногим менее одного терабайта. Это можно сравнить примерно с 8 триллионами ответов на вопрос «да или нет». В совокупности человечество создает каждый год 5 зеттабайт данных: 40 000 000 000 000 000 000 000 (сорок секстиллионов) бит[13].
Такие огромные цифры сложно себе представить, поэтому давайте их как-то конкретизировать. Если бы вы записали вручную всю информацию, содержащуюся в одном мегабайте, то ваша строка из 1 и 0 превысила бы по высоте гору Эверест[14]. Последовательность 1 и 0, составляющая 1 гигабайт, записанная вручную, соответствует длине земного экватора. А длина записанной последовательности цифр, составляющих один терабайт, равна расстоянию от Земли до Сатурна, пройденному туда и обратно 25 раз. Длина последовательности в один петабайт, записанной вручную, равна расстоянию туда и обратно до космического аппарата «Вояджер-1» (самого удаленного от Земли аппарата, созданного человечеством). Длина последовательности в один экзабайт равна расстоянию до альфы Центавра. Длина последовательности в 5 зеттабайт, создаваемых людьми каждый год, равна расстоянию до галактического центра Млечного Пути. Если бы вместо отправки электронных писем и трансляции видео эти пять зеттабайт использовались для той же цели, что и у древних пастухов – то есть для подсчета овец, – то их стадо полностью заполнило бы всю Вселенную, не оставив свободного пространства[15].