Компьютерра - Журнал «Компьютерра» № 25-26 от 11 июля 2006 года (645 и 646 номер)
На престижном научном форуме была представлена работа, касающаяся выделения морфотипов (групп организмов, объединенных сходством) в популяциях животных, которые мы назовем «воронами». На протяжении многих лет я интересуюсь гипотетической возможностью корректно описать популяционное разнообразие посредством выделения нескольких морфотипов особей, чтобы потом сравнивать популяции по частотам этих типов. И вот я вижу работу, в которой это удалось сделать…
Наличие нескольких типов в популяции «ворон» иллюстрируется картиной, которая аналогична показанной на рис. 5. Здесь использовано объединение в кластеры по методу Уорда (Ward’s method). Этот метод строит кластеры (группы) так, чтобы получающаяся внутри групповая дисперсия была минимальна. К сожалению, кластеры, которые выделялись при исследованиях одной выборки, не соответствовали кластерам, которые удавалось увидеть аналогичными методами в другой.
Вернувшись в гостиницу, я построил таблицу, заполненную шумом (так, формула «=Rnd(1)» в заголовке столбца приводит к его заполнению псевдослучайными числами от 0 до 1). Кластеризовав эти случайные объекты с использованием тех же методов, я получил «морфотипы», объединенные примерно на том же уровне сходства, что и в работе про «ворон» (рис. 5). Что характерно, на ее автора это не произвело никакого впечатления: «Ну и что, что и в случайном материале выделяются группы? У меня же материал не случайный!»
Выделение типов имеет смысл только в том случае, если они отделены друг от друга определенным разрывом. Если мы анализируем с помощью методов кластерного анализа совокупность объектов, относящихся к отграниченным друг от друга типам, построенные в ходе анализа кластеры будут соответствовать этим типам. Если же типов в структуре самого материала нет, анализ все равно построит кластеры: ничем другим работа его алгоритмов закончиться не может.
Магия «достоверности»Описанные выше ошибки в использовании статистики были яркими, но достаточно редкими. Теперь я с содроганием от собственной наглости [И выражением благодарности замечательному специалисту в области биометрии С. Н. Шамраю, который помог мне разобраться в этом вопросе, но не несет никакой моральной ответственности за мои возможные ошибки] должен приступить к обсуждению ошибки, которая является нормой для множества работ, как в моей узкой специальности, так и в изучении смежных групп.
Как систематик описывает разнообразие организмов? Упрощая, можно сказать, что он собирает в разных регионах серии подобных животных, сравнивает их друг с другом и решает, относятся ли они к одной форме, к разным подвидам или к разным видам. Новые подвиды и виды описывают, указывая их отличия от старых, ранее известных. В старые времена это сравнение проводилось в основном на основании интуиции систематика: его профессиональный взгляд мог (или не мог) выделить признаки, на основании которых принималось то или иное решение. Сейчас свое решение принято подтверждать статистическими методами. Как это делают чаще всего?
Собирают две серии объектов (например, уклеек из бассейна реки А и из бассейна реки Б), описывают их по максимальному количеству признаков, допускающих их представление в виде чисел, а потом сравнивают по всем этим признакам по критериям Стьюдента и Фишера (см. врезку). Послушная Statisticа подсветит красным те признаки, по которым найдутся достоверные отличия. Дальше смотрим, сколько таких признаков найдется и на какой статус отличий они потянут. Например, в авторитетнейшем для моей отрасли науки отечественном методическом сборнике один из классиков указывал, что два достоверных отличия — мало для описания подвида, а вот три — в самый раз.
Выражение «выборки сравнили по Стьюденту-Фишеру» несет в себе определенную некорректность. Еще чаще встречается некорректное употребление этих методов.
Критерий Стьюдента (t-критерий) представляет собой разницу средних двух выборок, отнесенную к стандартной ошибке разности выборочных средних (которая, в свою очередь, зависит от уровня изменчивости обеих выборок). Для каждого числа степеней свободы (зависящего от численности выборок) вычислено, с какой вероятностью случайность формирования выборок может привести к тому или иному значению t-критерия. Если t-критерий для определенного числа степеней свободы превосходит пороговое значение (например, возникающее в силу случайности с вероятностью 0,05), разницу выборок можно считать достоверной.
Автором этого самого популярного (к сожалению, не благодаря его достоинствам, а в силу его простоты) статистического метода является английский химик Уильям Госсет, работавший на пивоваренную компанию Guinness. По уставу фирмы, ее сотрудники не имели права публиковать результаты исследований, выполненных в рамках служебной деятельности. Поэтому результаты своей работы Госсет опубликовал в 1908 году под псевдонимом Student.
Принципиально важно, что t-критерий определен только для случая, когда сравниваются две выборки с одинаковыми дисперсиями и нормальными распределениями. Если дисперсии в выборках отличаются, этот факт можно показать с помощью F-критерия (требование нормальности распределения остается при этом в силе). F-критерий предложен американским статистиком Джорджем Снедекором и назван им в честь сэра Рональда Фишера, английского генетика, создателя дисперсионного анализа. Этот критерий представляет собой отношение двух дисперсий. Как и для t-критерия, для него известно распределение вероятности случайных отклонений для разных степеней свободы.
Итак, t-критерий позволяет оценить, какова вероятность того, что отличия средних двух выборок отражают лишь случайные процессы при их формировании, а F-критерий позволяет сделать то же самое в отношении меры их изменчивости. Увы, нормальность распределения — важнейшее ограничение применимости этих критериев.
Вопреки господствующему мнению, нормальные распределения — редкость в биологии. Одним из классических примеров «нормального» распределения является распределение людей по их росту. Но взгляните на фотографию: распределения мужчин и женщин по росту разные. На фотографии только здоровые люди, и нет больных с нарушениями гормонального баланса. А подумайте, что будет, если к этому распределению добавить стариков и детей!
Нормальность распределения возникает тогда, когда на величину действует много несвязанных слабых факторов. На биологическое разнообразие обычно влияет целый букет «сильных» факторов, связанных друг с другом букетом же корреляций. Эти факторы — пол, возраст, место в иерархической структуре популяции и многое другое. Увы, со «Стьюдентом-Фишером» в большинстве случаев лучше попрощаться.
Для описания новых видов, к счастью, требуют что-то сверх отличий по метрическим признакам (хотя якобы совсем недавно кому-то удалось описать массу новых видов моллюсков почти исключительно на основании достоверных отличий формы раковины). А для обоснования существования подвидов указанные рассуждения используются вовсю.
Корректны ли они? Конечно, нет. И дело не только в том, что t— и F-критерий применимы только для данных с нормальным распределением. Дело в другом. «Стьюдент-Фишер» дает ответ на вопрос, какова вероятность того, что два сравниваемых распределения одного и того же признака взяты из одной генеральной совокупности, и различия между ними — результат случайности при составлении выборки. Если эта вероятность (p) ниже какого-то уровня (например, 0,05), мы можем рискнуть и принять гипотезу, что выборки взяты из разных совокупностей. Это и называется достоверностью различий. И все. Отсюда есть два следствия.
Первое. Когда мы сравниваем уклеек из двух разных рек, мы и так с самого начала знаем, что это выборки из разных совокупностей. Второе. При уровне значимости 0,05 достоверное отличие — это такое отличие, которое возникает не чаще, чем в одном случае из двадцати. А если мы будем сравнивать выборки по ста признакам (или сто пар выборок по одному признаку), математическое ожидание «достоверных» отличий составит целых пять штук!
Беру две группы по пятьдесят объектов, характеризую их по ста признакам, заполняя столбцы шумом. Сравниваю по «Стьюденту-Фишеру». Получаю шесть «достоверных» отличий, из которых три штуки влезают в первый же скрин (рис. 6). Ну что, теперь можно анализировать, какие именно признаки оказались достоверно отличающимися, и делать на основании этого глубокомысленные выводы о специфике эволюции уклеек в бассейнах двух рек…
Мои рассуждения кажутся вам примитивными? Возьмите любой сборник или журнал с подобными по методологии работами и вы сами сможете найти примеры такого употребления статистических методов.
Что же делать? Для сравнения выборок по признакам, которые не подчиняются нормальному распределению, использовать непараметрические методы. Для сравнения нескольких объектов одновременно использовать дисперсионный анализ. Для сравнения одновременно по нескольким признакам использовать многомерные критерии. Для оценки уровня отличий между разными совокупностями вычислять фенетические дистанции (численные меры того, насколько отличаются друг от друга две выборки). И аккуратнее использовать статистические методы.