Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
53
См. Fryar C. D., Gu Q., Ogden C. L. Anthropometric Reference Data for Children and Adults: United States, 2007–2010 // Vital Health Statistics 11, no. 252 (2012), доступно в сети Интернет: http://goo.gl/uEuiV.
54
Если быть более точным, то степенным законом называется закономерность, при которой одна величина пропорциональна другой величине и растет по экспоненте (степенной константе). Закон Ципфа является степенным законом, величины в котором – это количество и частотность, экспонента равна 1. Если величины составляют сеть, то такая сеть называется «безмасштабной». См. Strogatz Steven H. Exploring Complex Networks // Nature 410, no. 6825 (2001). P. 268–276. Доступно в сети Интернет: http://goo.gl/gO6Eb4. Когда величины представляют собой геометрическую структуру, а экспонента не равна целому числу, для такой структуры есть специальное название: фрактал. См. Mandelbrot Benoit. The Fractal Geometry of Nature. San Francisco: W. H. Freeman, 1985. Хотя Ципф был одним из первых, кто выявил степенную закономерность в частотном распределении слов, еще ранее исследователи находили степенные последовательности в других областях. Самым заметным было наблюдение Вильфредо Парето, согласно которому 80% земли в Италии принадлежало 20% населения. Это было первое правило 80/20 из целого ряда подобных. Такой перекос на языке математики называется степенным законом.
Многие из степенных законов были впервые упомянуты Ципфом в его книге 1949 года, в которой он также приводит наблюдения других исследователей. Из самых последних обзоров см. Clauset Aaron, Shalizi Cosma Rohilla, Newman M. E. J. Power-Law Distributions in Empirical Data // SIAM Review 51, no. 4 (2009). P. 661–703. Доступно в сети Интернет: http://goo.gl/6PLJFF; Schroeder Manfred. Fractals, Chaos, Power Laws: Minutes from an Infinite Paradise. New York: W. H. Freeman, 1991. Подобные закономерности встречаются столь часто, что можно привести великое множество примеров в самых узких областях науки. См., например, Rodríguez-Iturbe Ignacio, Rinaldo Andrea. Fractal River Basins: Chance and Self-Organization. Cambridge, England: Cambridge University Press, 2001.
55
Согласно данным переписи 2010 года, средний капитал американского домохозяйства (за вычетом недвижимости) составлял 15 000 долларов. В марте 2010 г. журнал Forbes оценил состояние Билла Гейтса в 53 млрд долл. Таким образом, в нашем гипотетическом сценарии рост Гейтса должен составлять около 6007 км. Это значительно больше, чем диаметр Плутона (2390 км), Меркурия (4879 км) и Луны (3474 км); он сопоставим с диаметром Марса (6792 км). Даже при включении в расчет стоимости недвижимости, что повышает величину среднего собственного капитала до 66 740 долларов, высота Гейтса все равно составляла бы не менее 1350 км, что значительно больше половины диаметра Плутона. См. The World’s Billionaires: William Gates III // Forbes (10 марта 2010 г.), доступно в сети Интернет: http://goo.gl/8ykj; Wealth and Asset Ownership // U. S. Census Bureau (11 июля 2013 г.), доступно в сети Интернет: http://goo.gl/llnbC, и в особенности Wealth Tables 2010 // U. S. Census Bureau, доступно в сети Интернет: http://goo.gl/v7mxk.
56
См. Newman M. E. J. Power Laws, Pareto Distributions and Zipf’s Law // Contemporary Physics 46, issue 5 (2005), доступно в сети Интернет: http://goo.gl/nrkMB. Рассказ об обезьянах, печатающих на машинках случайные символы, приводится в статье Miller George A. Some Effects of Intermittent Silence // American Journal of Psychology 70, no. 2 (июнь 1957). P. 311–314. Доступно в сети Интернет: http://goo.gl/p6PLll.
57
Довольно подробное рассмотрение этой увлекательной проблемы можно найти в книге Pinker Steven. Words and Rules: The Ingredients of Language. New York: Basic Books, 1999. В зависимости от вашей точки зрения, неправильные глаголы могут казаться либо странными, либо восхитительно причудливыми. Как-то раз одна читательница New York Review of Books опубликовала объявление о поиске партнера, начинавшееся словами: «Можете ли вы назвать себя неправильным глаголом?» См. Pinker Steven. The Language Instinct. New York: William Morrow, 1994. P. 134. (Рус. изд.: Пинкер С. Язык как инстинкт. М.: Либроком, Едиториал УРСС, 2013. – Прим. пер.).
58
Если быть более точным, аблаут – это чередование гласных в рамках одной морфемы, выступавших своего рода внутренней флексией, ср., например: собирать – собрать – сбор – соберу (Прим. ред.).
59
В отличие от сильных неправильных глаголов, правильные известны также под названием «слабые». См. Stark Detlef. The Old English Weak Verbs. Tübingen, Germany: M. Niemeyer, 1982; Howren Robert. The Generation of Old English Weak Verbs // Language 43, no. 3 (сентябрь 1967 г.), доступно в сети Интернет: http://goo.gl/2yf0t.
60
См. Mallory J. P., Adams D. Q. The Oxford Introduction to Proto-Indo-European and the Proto-Indo-European World. Oxford: Oxford University Press, 2006; Ringe Don. A Linguistic History of English. Oxford: Oxford University Press, 2006.
61
Как правило, выравнивание представляет собой улицу с односторонним движением, однако и здесь имеются крайне редкие исключения. Одним из них служит неправильная форма snuck (от глагола sneak – «прошмыгнуть»), которая тайком пробралась (sneaked) в английский язык в прошедшем столетии. Следуя примеру неправильных глаголов типа stick – stuck, strike – struck и stink – stunk, каждый год примерно 1% людей, говорящих на английском языке, используют вместо формы sneaked форму snuck. Иными словами, еще один человек начал использовать эту форму, пока вы читали это предложение. Pinker Steven. The Irregular Verbs // Landfall (Autumn 2000). P. 83–85. Доступно в сети Интернет: http://goo.gl/kFFzLm.
62
На самом деле в современном английском языке нет такого понятия, как полностью неправильный глагол. Правильная форма глагола существует всегда (даже если почти не употребляется и спокойно ждет своего часа). Огромное влияние на это явление оказывает частотность употребления, поскольку часто используемые неправильные глаголы довольно успешно подавляют конкурирующие правильные формы. К примеру, в сравнении с формой drove форма drived почти не используется. Напротив, форма throve на протяжении многих столетий была достаточно уязвимой. Правильная форма thrived, давно бывшая для нее серьезным конкурентом, начала брать верх в XX веке. Это случается довольно часто. В наших списках словных последовательностей («1-грамах») слово found (от глагола find – «находить») (частота 1 на 2000) встречалось в 200 000 раз чаще, чем finded. При этом форма dwelt (от глагола dwell – «обитать») (частота 1 на 100 000) встречалась всего в 60 раз чаще формы dwelled. См. Michel2011. Для целей исследования, проведенного в 2007 году, нам время от времени был нужен список современных неправильных глаголов английского языка, который можно было бы считать «авторитетным». Мы использовали этот список для определения того, какие глаголы приобрели правильную форму, а какие – нет. Самостоятельное составление этого списка лишало нас должной объективности, поэтому мы выбрали список из работы Pinker S., Prince A. On Language and Connectionism: Analysis of a Parallel Distributed Processing Model of Language Acquisition // Cognition 28 (1988). P. 73–193. Мы считали неправильным любой глагол, у которого с точки зрения данного списка была хотя бы одна неправильная форма. Нужно отметить, что время от времени между словарями и другими источниками возникает разногласие в отношении того, какие глаголы считаются неправильными, а какие – нет. К примеру, wed – wed («женить») в указанном выше списке относится к неправильным, но во всех современных словарях приводятся иные формы (кое-кто из носителей языка уже отдает предпочтение форме wed – wedded).