Нейт Сильвер - Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет
В известном эссе 1993 г.{274}, написанном Алланом Мерфи (работавшим в то время метеорологом в Университете штата Орегон), утверждалось, что в сообществе прогнозистов погоды имеются целых три определения качества прогноза. Мерфи не утверждал, что то или иное определение лучше остальных; скорее, он пытался начать более открытое и честное их обсуждение. Версии этих определений могут применяться почти в любой области, где нужны прогнозы или предсказания.
Первый (и, возможно, самый очевидный) способ оценки прогноза, писал Мерфи, связан с тем, что он сам называл «качеством», но, пожалуй, его лучше определить как правильность. Иными словами, оценивается ответ на вопрос, соответствовала ли реальная погода прогнозу?
Второй способ обозначен словом «последовательность», но я считаю, что в данном случае чаще подходит слово честность. Даже если прогноз оказался достаточно точным, был ли это лучший прогноз, на который способен прогнозист в то время? Отражал ли он самые наилучшие из имевшихся суждений и модифицировали ли его каким-либо образом перед тем, как представить публике?
И, наконец, Мерфи говорил об экономической ценности прогноза. Способствовал ли он принятию общественностью и политиками более правильных решений?
Проведенное Мерфи различие между правильностью и честностью не сразу очевидно, однако крайне важно. Когда созданный мной прогноз оказывается неверным, я часто спрашиваю себя, был ли это лучший вариант прогноза, который я мог бы дать с учетом имевшихся у меня на тот момент данных. Иногда я считаю, что этак: мой мыслительный процесс оказался верным, я провел все необходимые исследования, выстроил хорошую модель и точно указал, какая доля неопределенности присутствует в прогнозе. В других же случаях я обнаруживал, что мне не нравится моя собственная работа. Иногда я слишком быстро отказывался от ключевых элементов исследования. Иногда я переоценивал степень предсказуемости проблемы. Иногда у меня возникали какие-то другие предубеждения или неверные стимулы.
Я не хочу сказать, что вы должны ругать себя всякий раз, когда ваш прогноз оказывается неверным. Напротив, признаком того, что вы делаете хороший прогноз, является то, что вы полностью принимаете то, как развиваются события, понимая, что не все из них вы можете непосредственно контролировать. Однако у вас всегда есть возможность спросить себя о том, какие цели вы имели, принимая свое решение.
В долгосрочной перспективе заявленные Мерфи цели правильности и честности должны сходиться друг с другом, когда у нас имеются правильные стимулы. Однако так бывает не всегда. Например, не исключено, что политических комментаторов из McLaughlin Group больше волновало желание казаться толковыми на экране телевизора, чем создание правильных предсказаний. Возможно, что они вели себя вполне рационально. Однако если они сознательно делали плохие прогнозы, поскольку хотели произвести приятное впечатление на представителей той или иной партии, или же хотели вновь оказаться на шоу, то можно считать, что они провалили тест Мерфи на честность.
Третий критерий Мерфи – экономическая ценность прогноза – способен запутать нас еще сильнее. Разумеется, мы вполне можем согласиться с доктором Роузом в том, что прогнозы для городов могут заслуживать большего внимания – допустим, если температура воздуха находится около точки замерзания и осадки могут принять форму дождя, льда или снега, каждый из которых может по-разному влиять на безопасность и транспортировку жителей.
Однако это, скорее, связано с тем, на чем Weather Channel концентрирует свои ресурсы и чему уделяет основное внимание. Это не значит, что иногда под сомнение ставится правильность или честность прогноза. Многие газеты стремятся к тому, чтобы каждая опубликованная в них статья была точной и честной, однако им все равно необходимо принимать решение о том, какие материалы поместить на первую полосу. Weather Channel должен принимать аналогичные решения, и экономическое влияние прогноза – это вполне разумная основа для них.
Впрочем, бывают времена, когда цели начинают конфликтовать между собой и коммерческий успех оказывается важнее правильности.
Когда конкуренция приводит к тому, что прогнозы становятся хуже
Существуют два основных теста, которые должен пройти любой прогноз погоды, чтобы доказать свою состоятельность.
1. Он должен оказаться лучше, чем тот, что следует из так называемого метеорологами постоянства: то есть из предположения о том, что завтра (и в последующие дни) погода будет такой же, как и сегодня.
2. Он должен оказаться лучше, чем тот, что следует из климатологии, то есть лучше прогноза, сделанного на основе анализа долгосрочных исторических средних климатических условий на конкретную дату в конкретном месте.
Эти методы были доступны нашим предкам задолго до того, как на сцене появились Ричардсон, Лоренц и суперкомпьютер Bluefire; если мы не можем улучшить их результаты, то все дорогостоящие вычислительные мощности просто не выполняют свою работу.
У нас есть масса данных о том, какой была погода в прошлом, начиная еще со времен Второй мировой войны. Например, я могу зайти на сайт Wunderground.com и узнать, что в 13 января 1978 г. в 7 часов утра в Лэнсинге, штат Мичиган, – в день и час моего рождения – температура была равна –8 °С, шел небольшой снег и дул северо-восточный ветер{275}. Однако сравнительно немного людей занималось сбором данных о прогнозах погоды из прошлого. Ожидался ли в то утро в Лэнсинге снег? Это был один из тех немногих элементов информации, который можно было бы рассчитывать найти в интернете, но его там нет.
В 2002 г. предприниматель по имени Эрик Флер, выпускник факультета вычислительной техники Университета штата Огайо, работавший на MCI, перевернул все с ног на голову. Он попросту стал собирать данные о прогнозах, выпущенных NWS, Weather Channel и AccuWeather, чтобы понять, какая модель прогноза более точна – правительственная или частная. Сначала он занялся этим исключительно для самообразования – он проводил своего рода широкомасштабный научный проект, – однако это увлечение довольно быстро превратилось в прибыльный бизнес с названием ForecastWatch.com, в рамках которого данные переупаковываются в модернизированные по заказам пользователей отчеты для клиентов, начиная от трейдеров на энергетическом рынке (для которых изменение температуры на долю градуса приравнивается к десяткам тысяч долларов) и заканчивая учеными.
Флер обнаружил, что явного победителя выявить не удается. Его данные показывали, что AccuWeather чуть лучше других удаются прогнозы по осадкам, Weather Channel – прогнозы по температуре, а прогнозы правительства достаточно точны во всем остальном. То есть в целом все прогнозы были достаточно хороши.
Но чем больше оказывался период прогнозирования, тем менее точными становились прогнозы (рис. 4.6). Допустим, прогнозы, создаваемые за восемь дней, достаточно хороши с точки зрения постоянства, однако не намного лучше климатологических.
А если интервал прогнозирования составляет девять и более дней, все профессиональные прогнозы оказывались стабильно хуже климатологических данных.
Лофт рассказывал мне, что в тех случаях, когда период прогнозирования даже немного превышает неделю, теория хаоса начинает брать верх над всем остальным, и динамическая память атмосферы полностью стирается. Хотя приведенная ниже аналогия вряд ли может считаться совершенно точной, она помогает нам подумать об атмосфере как о трассе для гонок NASCAR, в которой различные погодные системы представлены отдельными автомобилями. После первой пары десятков кругов по трассе и при условии знания стартового порядка машин мы можем сделать довольно неплохое предсказание порядка, в котором они будут проезжать мимо нас. Наши предсказания не будут идеальными: на них повлияют и неожиданные поломки, и пит-стопы, и заглохшие моторы, – но наш прогноз будет значительно лучше случайно выбранной последовательности.
Рис. 4.6. Сравнение прогнозов максимальной температуры{276}
Вскоре, однако, более быстрые автомобили начнут опережать более медленные, и через какое-то время ситуация станет непредсказуемой. Может получиться и так, что машина, занимающая второе место, будет ехать рядом с машиной, которая занимает 16‑е место (обгоняя ее почти на круг), и с машиной, находящейся на 28‑м месте (которую она один раз уже обогнала и которую собирается обогнать еще раз). Все то, что мы знали о начальных условиях гонки, теперь не имеет для нас никакой ценности. Аналогично, если в атмосфере достаточно долго циркулировали воздушные потоки, погодные параметры настолько слабо будут напоминать о своих начальных значениях, что исходные модели теряют любой смысл.