Нейт Сильвер - Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет
509
Со сходным случаем я столкнулся, консультируя крупную голливудскую киностудию в 2009 г. Руководство этой студии, обладавшей сложной структурой и на протяжении многих лет управлявшейся с помощью данных, верило, что определенный уик-энд, скажем, первый уик-энд октября, – особенно хороший момент для начала показа потенциального блокбастера, даже если не было связи ни с какими другими факторами. Это произошло из-за того, что студия в прошлом выпустила фильм, показ которого начался в это время и который оказался на редкость удачным (возможно, просто из-за того, что это был очень хороший фильм). Однако студия приписала часть успеха периоду начала показа. Поэтому в каждом следующем году она приберегала свои лучшие релизы на один и тот же уик-энд октября, а затем изо всех сил начинала заниматься его продвижением. Разумеется, хороший и активно рекламируемый фильм будет финансово успешным вне зависимости от того, когда он выходит в прокат. Тем не менее происходившее лишь подтверждало их предсказание о том, что начало октября – самое лучшее время для выпуска фильма.
510
Это расчет основан на количестве детей, отнесенных к аутистам и тем самым получивших право на обучение по особой программе в государственных школах в соответствии с федеральным законом IDEAS Act. «Table 45. Children 3 to 21 Years Old Served Under Individuals with Disabilities Education Act, Part B, by Type of Disability: Selected Years, 1976–77 through 2008–09», Digest of Educational Statistics, National Center for Education Statistics, Institute of Education Sciences, 2010. http://nces.ed.gov/programs/digest/d10/tables/dt10_045.asp.
511
По данным NewsLibrary.com. На рис. 7.3 приведены цифры количества статей с обсуждением темы аутизма, отражающие общее количество статей в базе данных NewsLibrary.com на конкретный год, а затем проиндексированные таким образом, чтобы соответствовать по масштабу количеству учеников государственных школ, обучавшихся по специальным программам в области аутизма в соответствии с законом IDEAS Act.
512
Tomohisa Yamashita, Kiyoshi Izumi, Koichi Kurumatani, «Effective Information Sharing Based on Mass User Support for Reduction of Traffic Congestion», presented at the New England Complex Systems Institute’s Fifth International Conference on Complex Systems, May 16–21, 2004. http://www.necsi.edu/events/iccs/openconf/author/papers/f190.pdf.
513
Hyejin Youn, Hawoong Jeong, and Michael T. Gastner, «The Price of Anarchy in Transportation Networks: Efficiency and Optimality Control», Physical Review Letters, 101, August 2008. http://arxiv.org/pdf/0712.1598.pdf.
514
Hanna Kokko, «Useful Ways of Being Wrong», Journal of Evolutionary Biology, 18 (2005), pp. 1155–1157. http://www.anu.edu.au/BoZo/kokko/Publ/Wrong.pdf.
515
W. O. Kermack and A. G. McKendrick, «A Contribution to the Mathematical Theory of Epidemics», Proceedings of the Royal Society A, 115 (1927), pp. 700–721.
516
H-H. M. Truong, et al., «Increases in Sexually Transmitted Infections and Sexual Risk Behaviour Without a Concurrent Increase in HIV Incidence Among Men Who Have Sex with Men in San Francisco: A Suggestion of HIV Serosorting?», Sexually Transmitted Infections, 82, 6 (2006), pp. 461–466.
517
Идея «презерватива усталости» заключалась в том, что геи просто устали от того, что они должны использовать презерватив каждый раз, когда занимались сексом.
518
Thomas H. Maugh II, «Experts Fear Resurgence of HIV Infection», Los Angeles Times, July 8, 2000. http://articles.latimes.com/2000/jul/08/news/mn-49552.
519
Термин MSM более предпочтителен в медицинской литературе для описания подобных случаев; он более точен, чем термины «гомосексуалист» или «гей», которые часто относятся к сексуальной самоидентификации, чем к сексуальному поведению. Некоторые мужчины, называющие себя сторонниками традиционной ориентации (или бисексуалами), тем не менее занимаются сексом с мужчинами; а некоторые мужчины, называющие себя геями, могут заниматься сексом с женщинами или вообще воздерживаться от секса.
520
По данным департамента здравоохранения Сан-Франциско.
521
Christopher S. Hall and Gail Bolan, «Syphilis and HIV», HIV InSite Knowledge Base Chapter, University of California San Francisco; June 2006. http://hivinsite.ucsf.edu/InSite?page=kb-05%E2%80%9301%E2%80%9304.
522
H-H M. Truong et al., «Increases in Sexually Transmitted Infections and Sexual Risk Behaviour Without a Concurrent Increase in HIV Incidence Among Men Who Have Sex with Men in San Francisco: A Suggestion of HIV Serosorting?»
523
Fengyi Jin, et al., «Per-Contact Probability of HIV Transmission in Homosexual Men in Sydney in the Era of HAART», AIDS, 24, pp. 907–913, 2010. http://www.who.int/hiv/events/artprevention/jin_per.pdf.
524
Значительная часть исследований предполагала, что тенденцию определяли мужчины, имевшие ВИЧ: большинство из них предпочло бы заниматься сексом с другими партнерами, также имевшими ВИЧ, особенно если они не планировали использовать презерватив. Появление интернета, а также целого ряда сетей поддержки в офлайне, значительно упростило этот выбор.
525
Larry Green, «Measles on Rise Nationwide; Chicago Worst Hit», Los Angeles Times, August 5, 1989. http://articles.latimes.com/1989-08-05/news/mn-469_1_chicago-health.
526
Justin Lessler et al., «Transmissibility of Swine Flu at Fort Dix, 1976», Journal of the Royal Society Interface, 4, no. 15, pp. 755–762, August 2007. http://rsif.royalsocietypublishing.org/content/4/15/755.full.
527
Justin Lessler et al., «Transmissibility of Swine Flu at Fort Dix, 1976», Journal of the Royal Society Interface, 4, no. 15, pp. 755–762, August 2007. http://rsif.royalsocietypublishing.org/content/4/15/755.full.
528
Фразу «Сделайте это изощренно просто» часто использовал покойный экономист Арнольд Зеллнер.
529
«Healthy Hand Washing Survey 2011», Bradley Corp. http://www.bradleycorp.com/handwashing/survey.jsp.
530
http://www.altpenis.com/penis_news/20060710032108data_trunc_sys.shtml.
531
«An Agent-Based Approach to HIV/AIDS Epidemic Modeling: A Case Study of Papua New Guinea», thesis, Massachusetts Institute of Technology, 2006. http://dspace.mit.edu/handle/1721.1/34528.
532
Shan Mei, et al., «Complex Agent Networks Explaining the HIV Epidemic Among Homosexual Men in Amsterdam», Mathematics and Computers in Simulation, 80, no. 5, January 2010. http://portal.acm.org/citation.cfm?id=1743988.
533
Donald G. McNeil Jr., «Predicting Flu with the Aid of (George) Washington», New York Times, May 3, 2009. http://www.nytimes.com/2009/05/04/health/04model.html?hp.
534
Michael A. Babyak, «What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models», Statistical Corner, Psychosomatic Medicine, 66 (2004), pp. 411–421.
535
Даже если модель предсказания представляет собой всего лишь мыслительный эксперимент, полезные результаты которого можно ждать годами, она все равно может помочь нам понять масштаб проблемы. Уравнение Дрейка, формула, позволяющая прогнозировать количество разумных внеземных видов во Вселенной, вряд ли поможет нам в создании полезных и верифицируемых предсказаний в течение жизни нынешних поколений (а может быть, и всей человеческой цивилизации). Неопределенность слишком велика. Слишком многие параметры формулы пока неизвестны, равно как и их масштаб; в зависимости от вводимых параметров она может показывать различные результаты – как то, что мы одиноки во Вселенной, так и то, что в ней существуют многие миллиарды внеземных видов. Тем не менее уравнение Дрейка стало для астрономов невероятно полезным «объективом», позволявшим размышлять о жизни, Вселенной и многом другом.
536
George E. P. Box and Norman R. Draper, Empirical Model-Building and Response Surfaces (New York: Wiley, 1987), p. 424.
537
«Norbert Wiener», Wikiquote.org. http://en.wikiquote.org/wiki/Norbert_Wiener.
538
Roland Lazenby, The Show: The Inside Story of the Spectacular Los Angeles Lakers in the Words of Those Who Lived It (New York: McGraw-Hill Professional, 2006).
539
Mark Heisler, «The Times’ Rankings: Top to Bottom/NBA», Los Angeles Times, November 7, 1999.
540
Tom Spousta, «Pro Basketball: Trail Blazers Have Had Some Success Containing O’Neal», New York Times, May 20, 2000. http://www.nytimes.com/2000/05/20/sports/pro-basketball-trail-blazers-have-had-some-success-containing-o-neal.html?scp=2&sq=lakers+portland&st=nyt.
541
«Blazer Blowout Shows Need for ‘Sheed,”», Associated Press; May 22, 2000. http://web.archive.org/web/20041226093339/ http://sportsmed.starwave.com/nba/2000/20000522/recap/porlal.html.
542
Tom Spousta, «Pro Basketball: Game 2 Was a Blur as Lakers Lost Focus», New York Times, May 24, 2000. http://www.nytimes.com/2000/05/24/sports/pro-basketball-game-2-was-a-blur-as-lakers-lost-focus.html?scp=3&sq=lakers+portland&st=nyt.
543
Tom Spousta, «Pro Basketball: Lakers Rally and Get Back on Track», New York Times, May 27, 2012. http://www.nytimes.com/2000/05/27/sports/pro-basketball-lakers-rally-and-get-back-on-track.html?scp=14&sq=lakers+portland&st=nyt
544
Tom Spousta, «Pro Basketball: Everything Comes Up Roses for the Lakers», New York Times, May 29, 2000. http://www.nytimes.com/2000/05/29/sports/pro-basketball-everything-comes-up-roses-for-the-lakers.html?scp=16&sq=lakers+portland&st=nyt
545
«Seventh Heaven: Blazers Send Series Back to L.A. for Game 7», Associated Press via Sports Illustrated, June 3, 2000. http://sportsillustrated.cnn.com/basketball/nba/2000/playoffs/news/2000/06/02/lakers_blazers_gm6_ap/.
546
То есть 300 тыс. долл. от выигрыша ставки в 200 тыс. долларов на Portland при шансах 3 к 2, за вычетом 80 тыс. долл., изначально поставленных Вулгарисом на Lakers.
547
Tom Spousta, «Pro Basketball: Trail Blazers Follow Plan to the Bitter End», New York Times, June 7, 2000. http://www.nytimes.com/2000/06/05/sports/pro-basketball-trail-blazers-follow-plan-to-the-bitter-end.html?scp=28&sq=lakers+portland&st=nyt.
548
На основании сравнения между собой отдельных игр, данные о которых были загружены с сайта Basketballvalue.com. http://basketballvalue.com/downloads.php.
549
Данные основаны на логистическом регрессионном анализе, который я провел в отношении всех игр в регулярном сезоне НБА 2009–2010 гг., где в качестве независимой переменной выступала разница очков между командами хозяев и гостей за 14 минут до конца игры, а в качестве зависимой – факт выигрыша команды хозяев. Результат регрессионной модели составляет 0,056 при разнице очков –16; иными словами, вероятность победы команды хозяев при отставании на 16 очков составляет 5,6 %, иными словами, 1 шанс против 17. Я округлил это значение до 1 против 15, поскольку команда, отстающая на 16 очков в домашнем матче, обычно уступает своему оппоненту, а Lakers и Blazers находились примерно на одном уровне.