Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Пожалуй, самым впечатляющим примером перспективного подхода во всей истории науки могут считаться работы Чарльза Дарвина. Более 150 лет назад Дарвин отправился в путешествие на корабле и столкнулся со множеством странных живых существ. Особенно сильно его заинтересовали некоторые птицы, которых он увидел на Галапагосах: почему клювы вьюрков имели такую странную форму? И вообще, почему животные выглядят так, как они выглядят?
А затем Дарвин сделал крайне проницательное заключение. Вместо того чтобы сконцентрироваться исключительно на настоящем, он посмотрел в далекое прошлое. Дарвин задался вопросом – как получилось, что со временем те или иные организмы обрели нынешнюю форму? Если мы хотим понять мир в его нынешнем виде, полагал он, мы должны понять и суть процесса изменений, который привел нас в это состояние. И этот процесс изменений – важнейшее открытие Дарвина – представляет собой комбинацию воспроизводства, мутации и естественного отбора, и эта комбинация (или, иными словами, теория эволюции) способна объяснить все примечательное разнообразие живого мира.
Перспективный подход превращает вопрос о том, почему мы говорим drove, а не drived, в научный поиск тех сил, которые определяют эволюцию человеческой культуры. В течение длительного периода времени мы совершенно не представляли себе, как подступиться к этим силам. Все, что у нас было, это «детский» вопрос.
Охотники на динозавров
Мы как ученые должны заниматься сбором данных – холодных, четких фактов и точных результатов измерений. Мы должны формулировать однозначные гипотезы, а затем пытаться изменить или скорректировать их с помощью точных экспериментов и анализа. С этой точки зрения культура – вещь, которую сложно определить и еще сложнее измерить, – может оказаться довольно твердым орешком. Именно это и делает столь непростой научную работу в областях вроде антропологии. Отчасти именно по этой причине в 2010 году Американская антропологическая ассоциация приняла довольно противоречивое решение об исключении слова «наука» из формулировки своей задачи (стоит отметить, что позднее это слово было вновь возвращено в текст) [44].
Мы решили начать с достаточно узкого аспекта культуры, который довольно просто определить и измерить, – языка. Язык представляет собой своеобразный микрокосм для изучения культуры в целом. Это – основное средство распространения человеческой культуры. Он меняется, и это легко заметит любой человек, читающий пьесы Шекспира. И наконец, язык часто имеет письменную форму и именно в этой форме превращается в массив данных, удобный для научного анализа. В конечном счете письменный язык может считаться одним из самых ранних предшественников больших данных.
Каким же образом следует подходить к вопросу изучения эволюции языка? Если взять биологию, то лучший способ понять пути развития эволюции состоит в изучении окаменелостей. Однако находить ископаемые довольно сложно. Для этого требуется сочетать тщательное планирование и хорошую стратегию. С точки зрения успешного поиска окаменелостей мало кто может сравниться с Натаном Мирвольдом, возможно, величайшим охотником на динозавров в своем поколении (этот человек множества талантов также стал одним из основателей Microsoft Research и написал книгу о современной кухне) [45]. И дело вовсе не в том, что Мирвольду везет больше, чем другим, и что каждый беловатый камень, который он в своих экспедициях берет в руки, оказывается черепом динозавра Tyrannosaurus rex. Мирвольд и его команда используют подробные геологические карты, спутниковые фотографии и свою собственную программу экологического анализа. Все это помогает им понять, где заниматься поисками и где белые камни действительно имеют шансы оказаться окаменелостями. В результате, начиная с 1999 года, им удалось обнаружить десять скелетов тираннозавров – при том что за 90 предшествовавших лет было найдено всего 18 таких скелетов. Выражаясь словами самого Мирвольда, «мы господствуем на рынке T. rex».
Мы решили господствовать на рынке лингвистических окаменелостей. Подобно тому, как окаменелости эпохи динозавров рассказывают нам о биологической эволюции, лингвистические окаменелости помогают нам понять, как развивается язык. Однако для того, чтобы повысить шансы на успех в поиске таких окаменелостей, нам был необходим некий руководящий принцип, помогающий понять, где именно копать. И оказалось, что нужный нам инструмент был создан 80 лет назад человеком, который, как и мы сами, искренне любил считать.
1937: Одиссея данных
Джордж Кингсли Ципф работал в Гарварде в 1930-е и 1940-е годы, возглавляя отделение германской литературы. У него имелась комбинация довольно редких навыков – с одной стороны, он был гуманитарием, а с другой – разбирался в количественных измерениях.
Будучи филологом, Ципф проводил кучу времени в размышлениях о словах. Ему казалось вполне очевидным, что не все слова созданы равными. Определенный артикль the используется в английском языке постоянно, но мы редко слышим слово quiescence («неподвижность»). Ципф счел этот дисбаланс довольно странным и захотел понять, в чем дело.
Понять суть проблемы можно вот как. Представьте себе, что английский язык – это страна, в которой каждое слово является гражданином. А еще представьте, что высота каждого слова-гражданина пропорциональна частоте его употребления – the будет гигантом, а quiescence – карликом[46]. Каково было бы жить среди людей со столь странным ростом? Именно такой «детский» вопрос и заинтересовал Ципфа.
Чтобы представить такой мир наглядно, Ципфу пришлось бы провести перепись всех слов и посчитать, сколько раз использовалось каждое из них. В наши дни это легко и просто сделать с помощью компьютера (программы из одной строки) [47]. Именно поэтому для написания концептуальной книги Legendary, Lexical, Loquacious Love не требовались десятилетия. Но в 1937 году таких возможностей не было. Современные компьютеры просто не существовали, а словом computer («компьютер») обозначался человек, занимавшийся арифметическими вычислениями[48].
Для подсчета слов Ципфу пришлось бы пойти проверенным путем – вручную записывать каждый случай появления того или иного слова в тексте. Разумеется, это была бы невероятно скучная работа.
Думается, что он испытал восторг, узнав о работе Майлса Л. Хенли[49]. Хенли, большой поклонник «Улисса», опубликовал результат кропотливой и героической работы, которой дал довольно скучное название Word Index to James Joyce’s Ulysses («Индекс слов в книге Джеймса Джойса „Улисс“»). Эта книга (представлявшая собой то, что ученые называют «конкорданс») предлагала исследователям «Улисса» и прочим энтузиастам список всех слов книги. Мало какая другая книга вызвала бы у Ципфа больший интерес. Теперь для того, чтобы разобраться со своей первоначальной задачей, ему нужно было взять индекс Хенли и посчитать, какова длина каждой из статей[50]. Работа стала на порядок проще.