Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Его работа имела огромное значение для закладки первого трансатлантического телеграфного кабеля. А после трагического столкновения в открытом море он быстро разработал системы судоходных путей, которые используются по сей день. Он даже применил свой метод к астрономии: с открытием планеты Нептун в 1846 году Мори выдвинул прекрасную идею пересмотреть все архивные записи, где планета ошибочно упоминается как звезда, что позволило установить ее орбиту.
Выходец из Вирджинии, Мори редко упоминается в источниках американской истории. Возможно, это потому, что он ушел из флота во время Гражданской войны в США и служил шпионом в Англии на благо Конфедерации. Но несколькими годами ранее, прибыв в Европу, чтобы заручиться международной поддержкой для своих карт, в четырех странах Мори был посвящен в рыцари, а еще в восьми — награжден золотыми медалями, включая награду Святого Престола. И теперь лоцманские карты, изданные военно-морским флотом США, носят его имя.
Коммодор[72] Мори одним из первых осознал основополагающий принцип больших данных: огромный корпус данных обладает особой ценностью, которой нет в меньших количествах. Более того, он понял, что заплесневелые журналы ВМФ на самом деле представляют собой «данные», если из них извлечь и свести в таблицы соответствующую информацию. При этом он впервые использовал данные, в частности те сведения, которые никому не представлялись ценными, повторно. Подобно Орену Эциони из Farecast, который с помощью старых сведений о ценах в авиационной отрасли создал прибыльный бизнес, или инженерам Google, применившим старые поисковые запросы, чтобы понять распространение вспышек гриппа, Мори взял целенаправленно созданную информацию (сведения о местоположении для безопасного путешествия) и преобразовал ее.
Его метод, в целом аналогичный современным методам работы с большими данными, был поразительным, учитывая, что Мори реализовывал его с помощью карандаша и бумаги. Это значит, что использование данных появилось намного раньше оцифровки. Сегодня мы часто объединяем эти понятия. Однако важно их различать. Уяснить, как данные получают из самых неожиданных областей, нам поможет более современный пример.
Сигеоми Косимицу, профессор Института передовых промышленных технологий в Токио, сумел извлечь данные из параметров, соотнесенных с ягодицами. Мало кому придет в голову, что сидячие позы несут в себе информацию, но это так. Контуры тела, позу и распределение веса сидящего человека можно оценить количественно и свести полученные цифры в таблицу. С помощью датчиков, размещенных в 360 разных точках сиденья автомобиля, Косимицу и группа инженеров снимают показатели давления, которое оказывают ягодицы водителя, оценивая каждую точку по шкале от 0 до 256 баллов. Получается цифровой код, уникальный для каждого человека. В ходе судебного разбирательства эта система способна отличить одного человека от другого с точностью до 98%.
Это исследование проводится не ради забавы. Технологию планируется использовать в качестве противоугонной системы автомобилей. Оборудованный такой системой автомобиль способен распознать «чужака» за рулем и потребовать пароль для запуска двигателя. Преобразование поз в данные представляет собой практичную услугу населению и потенциально прибыльный бизнес. Объединение данных может выявить связь между позой водителя и безопасностью на дорогах, например зафиксировать изменение позы перед дорожно-транспортным происшествием. Система способна также «почувствовать» замедление реакции из-за утомления и послать сигнал тревоги или автоматически нажать на тормоза. Она может не только обнаружить, что автомобиль украден, но и определить вора, так сказать, «со спины».
Профессор Косимицу обратился к материалу, который никогда не рассматривался как данные (вряд ли кому вообще пришло бы в голову, что он обладает информационными качествами), и преобразовал его в цифровой, количественный формат. Таким же образом коммодор Мори взял материал, который казался практически бесполезным, и получил из него информацию, превратив его в поистине полезные данные. Это позволило использовать информацию по-новому и придало ей уникальную ценность.
Слово data (англ. данные) в переводе с латинского означает «данность», то есть «факт». Это понятие стало краеугольным камнем классического труда Евклида, в котором геометрия объясняется с точки зрения известных данных и таких, которые можно показать, чтобы сделать известными. Сегодня данные относят к некоторому процессу, который позволяет их записывать, анализировать и переупорядочивать. Пока не придуман подходящий термин для обозначения такого рода преобразований, которые выполняли коммодор Мори и профессор Косимицу. Назовем их датификацией, под которой подразумевается процесс представления явлений в количественном формате для дальнейшего сведения в таблицу и анализа.
Датификация — далеко не то же самое, что оцифровка, при которой аналоговая информация преобразуется в двоичный код (или последовательность единиц и нулей), считываемый компьютером. Оцифровка не являлась первичной функцией компьютеров. Эпоха компьютерной революции изначально была связана с вычислениями, как и предполагает этимология слова compute (англ. «вычислять»). Мы выполняли вычисления, которые занимали много времени (такие, как вычисления в таблицах траекторий ракет, расчеты для переписей и сведений о погоде). И лишь затем появилась оцифровка аналогового контента. Поэтому, когда Николас Негропонте из MIT Media Lab опубликовал свою эпохальную книгу Being Digital в 1995 году, одной из поднятых им тем был переход от атомов к битам. К началу 1990-х годов этот переход в значительной степени коснулся текстовых данных. По мере увеличения емкости хранилищ, процессоров и пропускной способности за последнее десятилетие это удалось сделать и с другими формами контента (изображениями, видео, музыкой и пр.).
Сегодня среди технологов негласно принято считать, что большие данные ведут свое начало с момента «кремниевой» революции. Но это не так. Безусловно, большие данные стали возможны благодаря современным ИТ-системам, но основная идея лишь продолжила древнейшие поиски человечества в области измерения, записи и анализа мира.[73] ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию.
Для того чтобы записывать информацию в количественной форме (датифицировать ее), нам нужно знать, как проводить измерения и записывать полученный результат. А для этого необходим правильный набор инструментов, а также желание количественно измерять и записывать. И то и другое — предпосылки датификации, и человечество разработало ее «строительные элементы» задолго до начала цифровой эпохи.
Мир, выраженный в количественных категориях
Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.
Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.
Спустя столетия область применения измерений расширилась от длины и веса до площади, объема и времени. К началу I тысячелетия основные функции измерений узнал Запад. Существенным недостатком способа измерения в ранних цивилизациях являлось то, что он не был оптимизирован для вычислений, даже относительно простых. Система счета римских цифр малопригодна для численного анализа. Без позиционной системы нумерации из десяти основных цифр и десятичных чисел даже лучшим специалистам трудно давались умножение и деление больших чисел, а большинству остальных не хватало прозрачности даже в простом сложении и вычитании.[74]