KnigaRead.com/
KnigaRead.com » Фантастика и фэнтези » Научная Фантастика » Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Жан-Батист Мишель, "Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры" бесплатно, без регистрации.
Перейти на страницу:

35

A – неопределенный артикль в английском языке (Прим. ред.).

36

Страстный (англ.) (Прим. ред.).

37

Идея «больших данных» пока еще слишком нова для того, чтобы найти достойное отражение в книгах; см. наше обсуждение времени, которое требуется, чтобы термины стали появляться в книгах, в главе 6. Согласно данным Google Trends, количество результатов поиска на тему больших данных было довольно постоянно до 2011 года, а затем стало расти. Статья в Википедии Big Data была создана в апреле 2010 года; по состоянию на 14 июля 2013 г. она подвергалась редактированию 694 раза, ее просматривали более 150 000 раз в месяц и она стоит на 2022-м месте по популярности в англоязычной «Википедии». См: Big data // Google Trends, 2013, URL: http://goo.gl/tL8GnD; Big Data // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/DFFbr; Big Data: Revision History // Wikipedia (14 июля 2013 г.), URL: http://goo.gl/Jvla3; Big Data // X!’s Edit Counter (14 июля 2013 г.), URL: http://goo.gl/e9YZ7v; Big Data // Wikipedia Article Traffic Statistics (14 июля 2013 г.), URL: http://goo.gl/vgYxH.

38

Лучше всего понять атмосферу этого места и познакомиться с участниками проекта можно, прочитав книгу Новака. См. Martin A. Nowak with Roger Highfield, SuperCooperators. New York: Free Press, 2011.

39

Ответ на этот вопрос приводится в довольно противоречивой работе, изначально опубликованной Галилеем в 1632 году. См. Galileo Galilei, Dialogue Concerning the Two Chief World Systems, Ptolemaic and Copernican. New York: Modern Library, 2001. (Рус. изд.: Галилей Г. Диалог о двух главнейших системах мира – птолемеевой и коперниковой. М. – Л.: ГИТТЛ, 1948. – Прим. ред.)

40

Это вызвано явлением рассеяния Рэлея, открытым лордом Рэлеем (в то время его имя звучало как Джон Стратт). См. John Strutt. On the Light from the Sky, Its Polarization and Colour // Philosophical Magazine 41, series 4 (1871). P. 107–120, 274–279.

41

См. George W. Koch et al. The Limits to Tree Height // Nature 428 (22 апреля 2004 г.). P. 851–854. Доступно в сети Интернет: http://goo.gl/lxNlq.

42

См. Carlos Schenck. Sleep. New York: Penguin, 2007. Несмотря на наличие огромного количества книг на эту тему, никто в точности не знает, почему нам необходимо спать. Теоретикам есть где разгуляться в этой области. См., к примеру, Van M. Savage and Geoffrey B. West. A Quantitative, Theoretical Framework for Understanding Mammalian Sleep // PNAS: Proceedings of the National Academy of Sciences (20 ноября 2006 г.), доступно в сети Интернет: http://goo.gl/wFWDC.

43

Сравниваются две формы прошедшего времени глагола, одна из которых образована по правилу, но не существует в языке, вторая – существует, но образована не по правилу (Прим. ред.).

44

См. Nicholas Wade. Anthropology a Science? Statement Deepens a Rift // New York Times (9 декабря 2010 г.), доступно в сети Интернет: http://goo.gl/eCI9K3.

45

См. Nathan Myhrvold, Chris Young, and Maxine Bilet. Modernist Cuisine: The Art and Science of Cooking. Bellevue, WA: The Cooking Lab, 2011; Malcolm Gladwell. In the Air // New Yorker (12 мая 2008 г.), доступно в сети Интернет: http://goo.gl/TTtsLU.

46

Частота этого слова в книгах на английском языке в 2000 году – 4,6%, или 2 употребления на каждые 5 миллионов слов.

47

Приведенная ниже команда позволяет создать в системе Linux список всех однословных элементов в текстовом файле, отсортированных от самого частого к наименее частому: cat textfile.txt | tr’’ ‘n’ | sort | uniq – c | sort – k1 – n -r > 1grams.txt

48

Среди них было много женщин. Их замечательная работа описана в книге Grier David Alan. When Computers Were Human. Princeton, NJ: Princeton University Press, 2007. Сервис компании Amazon под названием Mechanical Turk, описываемый как «искусственный искусственный интеллект», представляет собой в каком-то смысле возврат к подобному подходу, только с использованием сети Интернет и краудсорсинга. См. URL: http://www.mturk.com.

49

См. Miles Hanley. Word Index to James Joyce’s Ulysses. Madison: University of Wisconsin Press, 1937.

50

Первая встреча Ципфа с законом, носящим его имя, произошла еще до того, как он занялся анализом частоты слов в «Улиссе». В 1911 году бизнесмен по имени Р. С. Элдридж опубликовал список частотных слов, взятых с восьми полос газеты. Элдридж заметил, что «даже умеренное количество слов при мудром выборе позволит любым двум людям понять друг друга… и серьезно обсуждать множество проблем». Его цель состояла в использовании лексической статистики для формулирования «основ универсального словаря». Список лег в основу расчетов Ципфа для книги 1935 года «Психобиология языка» – первой из публикаций Ципфа о закономерности, ныне известной как «закон Ципфа». См. Zipf George Kingsley. The Psycho-Biology of Language. Boston: Houghton Mifflin, 1935, доступно в сети Интернет: http://goo.gl/KYvOcK; Zipf George Kingsley. Human Behavior and the Principle of Least Effort. Reading, MA: Addison-Wesley, 1949; Eldridge R. C. Six Thousand Common English Words. Buffalo, NY: Clement Press, 1911.

51

Ципф во многом полагался на приложение к индексу Хенли, созданное Мартином Йоосом, где приводилось большинство необходимых статистических данных.

52

Было бы большим упущением, если бы мы не отметили, что закон Ципфа не имеет прямого отношения к Ципфу и не является законом в строгом смысле слова, причем по нескольким причинам. Прежде всего он верен лишь отчасти; при ближайшем рассмотрении в большинстве языков имеются систематические отклонения от чисто ципфовской закономерности. Во-вторых, несмотря на множество (конфликтующих между собой) теоретических построений, не до конца понятно, применим ли закон Ципфа для всех языков или только к отдельным языкам. Закон Ципфа, вероятнее всего, представляет собой в высшей степени универсальную – и достаточно загадочную – эмпирическую закономерность. Кроме всего прочего, Ципф его не открывал. Насколько нам известно, первым человеком, сформулировавшим его основополагающий математический принцип, был французский стенограф по имени Жан-Батист Эсту, опубликовавший результаты своих исследований по данному вопросу в 1912 году в своей популярной книге по скорописи (дисциплине, в которой ципфовские закономерности нашли немедленное практическое применение). Классическое представление закона Ципфа как графика распределения частотности на шкале с двумя осями было впервые изложено Эдвардом Кондоном в научной работе, опубликованной в 1928 году в журнале Science. Кондон впоследствии стал знаменитым физиком и президентом двух организаций – Американского физического общества и Американской ассоциации содействия развитию науки. Первая публикация Ципфа на тему закона Ципфа появилась в 1935 году. Судя по всему, он, независимо от других исследователей, пришел к тем же выводам и подтвердил их более основательными данными (как бы это ни было любопытно, анализ использования Ципфом чужих исследований не входит в наши планы в данной книге). Ципф продолжал работать над этим вопросом в течение долгого времени, много сделав как для создания теоретической базы, так и для масштабного рассмотрения аналогичных явлений в общественных науках. Также Ципф объединил разрозненные идеи и популяризовал их. В обзоре на его книгу Human Behavior and Principle of Least Effort («Человеческое поведение и принцип минимизации усилий»), написанном в 1949 году, она названа «одной из самых амбициозных книг из когда-либо написанных… свежей и непохожей на прочие. Как ни одна другая из написанных за последние полвека, она преодолевает границы между различными областями исследований». См. Stewart John Q. Обзор книги Zipf George Kingsley. Human Behavior and the Principle of Least Effort // Science 110, no. 2868 (16 декабря 1949 г.). P. 669. Для краткости мы не описываем подробно данную книгу. И все же, учитывая историю его развития, как дать закону Ципфа более точное название? Разумно предположить, что закон Ципфа должен на самом деле называться закономерностью Эсту – Кондона – Ципфа. Но даже такое название будет не вполне справедливым. Работа Ципфа стала возможной благодаря индексации и подсчетам, сделанным Хенли, Йоосом и Элдриджем. Работа Кондона также была основана на частотном анализе, проведенном другими исследователями: в данном случае Леонардом Айресом и Годфри Дьюи (сыном Мелвила Дьюи, изобретателя одноименной десятичной системы). Поэтому закон Ципфа стоило бы называть закономерностью Эсту – Кондона – Ципфа – Элдриджа – Айреса – Дьюи – Хенли – Йооса. Возможно, именно по этой причине мы придерживаемся более простого варианта – «закон Ципфа». В любом случае мы давно привыкли к тому, что всякое открытие, основанное на кропотливом анализе по-настоящему впечатляющего массива данных, не называется в честь человека, собравшего этот массив. Поэтому нам стоит заняться вручением утешительных призов. Как вариант, подошло бы название «принципа Хенли». См. Estoup Jean-Baptiste. Gammes Sténographiques. Paris: Institut Sténographique, 1916; Condon E.U. Statistics of Vocabulary // Science 67, no. 1733 (16 марта 1928 г.). P. 300. Доступно в сети Интернет: http://goo.gl/Qi5B49; Ayres Leonard P. A Measuring Scale for Ability in Spelling. New York: Russell Sage Foundation, 1915, доступно в сети Интернет: http://goo.gl/C0cgke; Dewey Godfrey. Relative Frequency of English Speech Sounds. Cambridge, MA: Harvard University Press, 1923; Petruszewycz M. L’Histoire de la Loi d’Estoup-Zipf: Documents // Mathématiques et Sciences Humaines 44 (1973). P. 41–56. Доступно в сети Интернет: http://goo.gl/LlrNn. Краткое и изящное описание этих идей приведено в книге Levelt Willem. A History of Psycholinguistics. Oxford: Oxford University Press, 2012. Обширная библиография на тему закона Ципфа и связанных с ним принципов приводится в работе Beebe Nelson H. F. A Bibliography of Publications about Benford’s Law, Heaps’ Law, and Zipf ’s Law. Salt Lake City: University of Utah, 2013, доступно в сети Интернет: http://goo.gl/TuyT0. Связанной с законом Ципфа может считаться концепция «розового или 1/f шума». См. Mandelbrot Benoit B. Multifractals and 1/f Noise: Wild Self-Affinity in Physics. New York: Springer, 1999.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*