Дарелл Хафф - Как лгать при помощи статистики
Правда ли, что ранняя диагностика рака сохраняет жизни пациентов? Очень может быть. Однако, основываясь на цифрах, часто используемых для подкрепления этого тезиса, можно сказать, что они вовсе не подтверждают это. Цифры эти, представленные в Онкологическом реестре Коннектикута, относятся к 1935 г. и на первый взгляд указывают, что в период с того самого 1935 г. по 1941 г. существенно улучшился показатель выживаемости больных в течение пяти лет с момента диагностики у них ракового заболевания. На самом деле фиксация таких данных началась в 1941 г., а данные за предшествующие годы были получены путем ретроспективного исследования. Многие пациенты уехали из Коннектикута, и невозможно было установить, живы они или скончались. Возникшая из-за этого изначальная необъективность выборки «была достаточной, чтобы практически полностью объяснить заявленное улучшение показателя выживаемости», считает журналист Леонард Энджел, специализирующийся на медицинской тематике.
Чтобы данные выборочного исследования имели значительную ценность, они должны основываться на репрезентативной выборке, то есть на выборке, из которой устранены все возможные источники предвзятости. Вот где наша цифра, обозначающая доходы выпускников Йеля, показывает свою несостоятельность. По этим же соображениям огромное количество сведений, встречающихся на страницах газет и журналов, лишены какого бы то ни было смысла.
Один психиатр заявил, что практически любой человек – неврастеник. Оставим в стороне тот факт, что подобное обращение с термином «неврастеник» лишает его всякого смысла, и посмотрим на выборку, послужившую основой для такого вывода. Иными словами, спросим себя: каких именно людей наблюдал данный психиатр? Оказывается, он пришел к такому поучительному выводу, изучая своих пациентов, а они более чем неподходящие кандидатуры на роль выборки из всего населения. Если человек был вполне нормален, у нашего психиатра не было никаких шансов увидеть его у себя на приеме.
Подвергайте такому осмыслению все прочитанное, и тогда вы сумеете оградить себя от великого множества сведений, не имеющих под собой реальной почвы.
Полезно помнить и о том, что скрытые источники необъективности способны с такой же легкостью подорвать надежность выборки, как и очевидные. Я имею в виду, что, даже если вам не удается обнаружить явный источник необъективности, позвольте себе некоторую долю сомнений и не доверяйте выводам безоговорочно, если имеется хоть какая-то вероятность, что они предвзяты. А это, поверьте, всегда возможно. В доказательство достаточно вспомнить президентские выборы в 1948-м и 1952 г., и всякие сомнения в этом отпадут[5].
Для вящей убедительности давайте вернемся в 1936 г., к временам, когда влиятельнейший журнал Literary Digest, общепризнанный в то время лидер изучения предпочтений американских избирателей, потерпел приснопамятное фиаско. Те десять миллионов опрошенных телефонных абонентов и подписчиков Literary Digest, которые уверили редакцию злополучного журнала, что победителем в президентской гонки выйдет республиканец Альфред Лэндон с 370 голосами выборщиков против 161 голоса за Франклина Рузвельта, были из того же списка рассылки, каким журнал воспользовался в 1932 г., когда блестяще предсказал итоги президентских выборов.
Разве можно было заподозрить в предвзятости людей из списка, который в прошлом так хорошо себя зарекомендовал? Но, разумеется, предвзятость имела место, и список был нерепрезентативен, что и установили авторы диссертаций и прочие любители изысканий постфактум. Контингент населения, который в 1936 г. мог себе позволить иметь телефон и подписываться на Literary Digest, не был срезом всей совокупности избирателей. В экономическом плане это была особая категория населения, то есть нерепрезентативная выборка, поскольку она изобиловала теми, кто поддерживал Республиканскую партию. Данная выборка и отдала предпочтение Лэндону, тогда как избиратели в массе своей имели другое мнение на этот счет.
Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности, под которой статистики понимают весь обследуемый массив. Например, выбирается каждое десятое имя в картотеке индексных карточек. Или из шляпы, полной свернутых бумажек, наугад выбираются пятьдесят штук. Или интервьюируется каждый двадцатый человек на главной улице Сан-Франциско Маркет-стрит. (К вашему сведению, последняя из упомянутых не будет выборкой ни населения всего мира, ни Соединенных Штатов, ни самого Сан-Франциско, это всего лишь выборка из всей массы людей, находящихся в это конкретное время на Маркет-стрит. Одна дама, проводившая опрос общественного мнения, рассказывала, что находила респондентов на железнодорожной станции, поскольку «на вокзалах можно обнаружить людей всех возможных категорий». Следовало бы указать ей, что матери малолетних ребятишек, например, могли быть недостаточно представлены в вокзальной толпе.)
Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?
Безупречно случайная – единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в таких сферах, как изучение общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.
Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны. Вы инструктируете интервьюеров, которые будут проводить опрос, и наказываете им проследить, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе сорока лет.
Все это выглядит убедительно, но что происходит на деле? В том, что касается цвета кожи респондентов – белый это или чернокожий, интервьюеры в большинстве случаев не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом – выбирают респондентов, которые явно старше или значительно моложе сорока лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под сорок и тех, кому сорок с небольшим. Так что, как ни крути, хорошего решения все равно нет.
А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение – сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу – и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем – значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.
В итоге проведение опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. Те, кто читает их доклады, должны помнить: эту битву никто и никогда не выигрывает. Всякий раз, когда вам где-нибудь встречается вывод, что «67 % американцев против» того-то или того-то, вам следует задаться вопросом: 67 % каких именно американцев?
То же самое относится и к «трактату о женской сексуальности» доктора Альфреда Кинси[6].
Проблема с этим трудом (как и со всеми прочими, в основу которых положены выборки) заключается в том, как ознакомиться с ним (или его кратким изложением) и при этом не намотать на ус слишком много суждений, которые не обязательно истинны. В труде доктора Кинси задействованы выборки как минимум на трех уровнях. Сделанные самим Кинси выборки из всего населения страны (один уровень) далеки от вероятностных и могут быть не особенно репрезентативны, но они колоссальны в сравнении с тем, что было сделано в этой области раньше. Приведенные Кинси цифры следует воспринимать как данные, на многое проливающие свет и значимые, даже если они и не вполне точны. Наверное, важнее иметь в виду, что любой вопросник или анкета представляют собой всего лишь выборку (еще один уровень) из всего множества возможных вопросов и что ответы женщин на эти вопросы – тоже не более чем выборка (вот вам третий уровень) из их личных взглядов и жизненного опыта по каждому заданному вопросу.