Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
На Западе упоминания о Тяньаньмэнь не умолкают и после 1989 года. В Китае же был заметен небольшой скачок интереса (даже не приблизившийся к уровню 1976 года) – после чего все вернулось к прежнему состоянию.
Бойня на площади Тяньаньмэнь представляет собой одно из центральных событий в современной истории Китая. Однако ее никто не обсуждает (по крайней мере в печати). Многие о ней даже не знают. Душераздирающий график на стр. 181 представляет собой яркое свидетельство жестокой эффективности цензуры в современном Китае.
Можем ли мы распознавать цензуру автоматически?
Вне зависимости от того, где возникают цензура и подавление, они часто оставляют характерную отметку: внезапное исчезновение определенных слов и фраз. Статистическая подпись этого лексического пробела зачастую выглядит настолько явно, что мы можем использовать цифры – большие данные, чтобы понять, что именно стало объектом цензуры.
Давайте вернемся к нацистской Германии и посмотрим, как это работает. Наша цель состоит в том, чтобы найти людей, слава которых, как и слава Шагала, исчезала во времена Третьего рейха, с 1933 по 1945 год. Мы можем измерить величину этого падения, сравнивая славу человека во времена Третьего рейха со славой до и после этого времени. Если во времена нацистского режима человек упоминался в одном случае на 100 миллионов, а в 20-х и 50-х годах один раз на 10 миллионов, то можно говорить о десятикратном падении. С другой стороны, если частота употреблений в годы нацистского режима вырастает в 10 раз, то можно сказать, что человек был особенно знаменитым именно в этот период и, возможно, извлекал определенную пользу из правительственной пропаганды. Таким образом, мы можем выбирать любое имя и присвоить ему показатель подавления, отражающий величину падения или роста. А это, в свою очередь, помогает нам определить, кто подвергался подавлению со стороны окружавшего общества.
Мы применили этот автоматический детектор в отношении тысяч имен знаменитых людей, живших во времена Второй мировой войны, и создали два совмещенных графика. Первый график, показывает показатель подавления для английского языка. Большинство линий близки к единице – никаких взлетов или падений. Менее чем у 1% изменение в том или ином направлении составило более пяти единиц. В графике нет ничего особенного – результаты для английского языка вполне типичны и очень напоминают то, что мы видели почти во всех языках и почти во все периоды времени.
Второй график, показывает результаты для немецкого языка во времена нацистского режима. Он выглядит совершенно иначе. Прежде всего он не отцентрирован, а смещен немного влево. Большинство людей в той или иной степени подавлялись режимом, у них произошло значительное падение уровня славы. Однако центр сместился не поэтому. Распределение значительно шире и включает в себя куда больше крайних значений. Лишь немногие из них располагаются справа, где мы ожидаем увидеть сторонников правительственной пропаганды. Большинство оказывается далеко слева – свыше 10% людей в нашем списке столкнулись с падением славы в пять и более раз.
Имена слева принадлежат Пикассо и Вальтеру Гропиусу, основателю движения «Баухауз» в изобразительном искусстве, архитектуре и дизайне. Продвинувшись еще левее, вы найдете имя Германна Мааса, протестантского священника, публично осуждавшего нацистов и помогавшего евреям получать визы на выезд из Германии. За эти усилия Рейх начал против него адресную кампанию. Разумеется, мы не первые, кто заметил невероятный героизм Мааса, – в 1964-м Яд ва-Шем, национальный израильский музей холокоста, признал Мааса одним из «Праведников мира».
Нарисовав этот график, мы попросили одну знакомую из Яд ва-Шем самостоятельно решить, руководствуясь инструментами обычного историка, какие имена должны появиться на каждом конце кривой. Мы не предоставили ей доступа к нашим данным или результатам, а также не объяснили ей, почему задаем такие вопросы. Все, что она от нас получила, был список имен. Тем не менее ее ответы в большинстве случаев соответствовали нашим.
Таким образом, наша техника статистического выявления цензуры обеспечивает результаты, идентичные качественным инструментам и традиционным методам традиционного историка[163]. Однако, в отличие от традиционных методов, наш анализ при помощи компьютера может занимать считаные мгновения.
Автоматизированные методики наподобие этой обладают огромным потенциалом для нашей повседневной жизни. Мы все хотим понимать, как влияют цензура, подавление и даже обычные искажения на информацию, которую мы потребляем каждый день. В наши дни целый ряд организаций, обеспокоенных проблемами цензуры, изучают СМИ в определенной области или регионе и заявляют об имеющихся в информации пробелах и упущениях. Однако вследствие того, что сейчас производится все больше информации, становится невозможным прочитать все или даже часть всего. Нам нужны альтернативы, и одной из них вполне могут стать большие данные.
Интересно, что «Википедия» начала не так давно применять присущий большим данным подход к выявлению искажений. На протяжении довольно долгого времени шли споры насчет «антиженского» перекоса в «Википедии» (вследствие того факта, что большинство редакторов «Википедии» – мужчины). Основная часть дискуссии базировалась на неофициальных свидетельствах. Однако теперь мы можем использовать в этом обсуждении статистические методы и данные n-грамов. Цель этой работы состоит в выявлении проблемных тенденций и статей, что дает возможность скорректировать ситуацию.
В будущем такие методы не будут ограничены веб-сайтами, на которых работают в основном волонтеры, на общественных началах. Эти методы заставят правительства вести себя более честно и помогут людям свободно выражать свои мысли.
Просачиваясь через миллионы каналов
Всего за несколько коротких лет нацисты прошли огромный путь в деле уничтожения множества великих идей. Им не нравилось современное искусство, поэтому они заставили многие шедевры исчезнуть, сделав исключение лишь ради унизительной выставки «Дегенеративное искусство». Модернисты типа Шагала покинули пределы Европы, перестали заниматься своим делом или были убиты. Современное искусство на тот момент практически исчезло из Германии.
Так стоит ли нам соглашаться с мнением Келлер о том, что «если вы считаете, что можете убить идеи, то история вас ничему не научила»?
С одной стороны, идеи выжили – и мы разговариваем о них прямо сейчас. С другой же стороны, было бы глупо притворяться, что так бы случилось в любом случае. Гитлер проиграл войну. Если бы история приняла другой оборот, то, возможно, его кампания против идей привела бы к их полному забвению.