Анатолий Клёсов - Кому мешает ДНК-генеалогия? Ложь, инсинуации, и русофобия в современной российской науке
Вопрос 59: Что такое база данных IRAKAZ?
Ответ на этот вопрос приведен на сайте Академии ДНК-генеалогии http://dna-academy.ru/irakaz/, и мы здесь его в значительной степени воспроизводим. Эта база представляет собой список практически всех доступных из открытых источников гаплотипов R1a в 67- и 111-маркерном формате по состоянию на дату выхода версии. Она оформлена в виде электронной таблицы в программе MS Excel, содержит информацию о стране происхождения и, если известно, этнической принадлежности самого раннего из документированных предков участника, отнесение к той или иной ветви гаплогруппы и список подтвержденных снипов (SNP). Персональная информация опущена, поскольку технически невозможно получить согласие на ее публикацию от каждого из участников. Однако для тех, кто предоставил в открытых проектах данные о своих предках и указал места их рождения, такую информацию можно найти на картах по линку выше.
База данных IRAKAZ ориентирована на использования гаплотипов в исследовательских целях, поэтому порядок записи гаплотипов следует определенной классификации. В базе данных предусмотрена также возможность поиска самых близких гаплотипов в 25-, 37-, 67- и 111-маркерном формате, как это описано на указанном сайте. Название IRAKAZ обозначает инициалы составителей базы: Igor Rozhanskii, Anatole Klyosov, Aleksander Zolotarev. Там же приведен список карт гаплогруппы R1a, составляющий часть базы данных IRAKAZ.
Глава 4
Расчетные методы ДНК-генеалогии. Константы скоростей мутаций в маркерах и в гаплотипах
Это – центральный вопрос ДНК-генеалогии, и мы уделим этому особое внимание. Вопросов в этом отношении задается много, что вызвано тремя основными причинами: (1) относительная сложность вопроса, (2) неупорядоченный, статистический характер мутаций, при котором число мутаций при относительно малом числе маркеров и за относительно малый промежуток времени является нестабильным, и для неопытного человека представляется принципиально невоспроизводимым, и (3) крайняя запутанность популяционными генетиками этой темы на протяжении последних 20 лет.
Вопрос 60: С какими скоростями происходят мутации в гаплотипах?
Выше (в ответе на Вопрос 14) было показано, что в маркере DYS393 значение аллели 13 сохраняется во всех трех рассмотренных гаплотипах (русского и двух киргизов), отделенных друг от друга тысячелетиями, а в маркере DYS390 за то же время мутация произошла дважды, и все три аллели оказались разными – 24, 25 и 26. Три гаплотипа в данном случае не очень показательны, статистика не та, но в целом так и должно быть, потому что константа скорости мутации в маркере DYS393 равна 0.00059 мутаций на условное поколение (25 лет), а в маркере DYS390 – почти в четыре раза выше, 0.0022 мутаций на условное поколение.
Что эти числа реально означают?
Они означают, что в маркере DYS393 мутация происходит в среднем раз в 1/0.00059 = примерно 1700 условных поколений, то есть раз в 42 500 лет. В трех независимых маркерах DYS393 мутация в среднем проходит примерно раз в 14 тысяч лет. А общий предок всех трех гаплотипов в примере выше жил примерно 5 тысяч лет назад, поэтому мутация и не успела произойти, все три аллели равнялись 13, то есть показывали 13 тандемных повторов. В маркере DYS390 мутация происходит в среднем раз в 1/0.0022 = 455 условных поколений, то есть примерно раз в 11 тысяч лет, то есть для трех независимых маркеров мутация в среднем произойдет раз в 3800 лет (округлено). Вот она и произошла, и даже дважды за 5 тысяч лет. Естественно, здесь это только полуколичественные расчеты, потому что три маркера – это не статистика, но здесь показан принцип расчета. Если бы у нас было в наличии тысяча гаплотипов, расчеты были бы намного точнее. В таком случае в тысяче маркеров DYS393 за пять тысяч лет (200 условных поколений) было бы 1000х0.00059х200 = 118 мутаций, а в маркере DYS390 было бы 1000х0.0022х200 = 440 мутаций. С такой статистикой уже можно работать.
Давайте посмотрим, что наблюдается в более протяженных сериях гаплотипов. Взглянем на серию из 3466 гаплотипов гаплогруппы R1b-L21. Число аллелей в маркере DYS393:
11 – 2 (то есть аллель 11 встречается в 3466 гаплотипах всего два раза)
12 – 81
13 – 3237
14 – 145
15 – 1
Считая, что все мутации одношаговые, получаем 232 мутации на 3466 аллелей – от базового значения аллели, равного 13, то есть в среднем 0.067 мутаций на маркер DYS393. Как проводятся поправки на возвратные мутации в таких системах мы рассмотрим в следующем разделе. Такие поправки нужны, потому что часть мутированных маркеров не только продолжают мутировать, уходя все дальше от предковой аллели (например, 13 → 14 → 15, или 13 → 12 → 11), но по тем же законам статистики возвращаются в исходное положение (13 → 14 → 13, 13 → 12 → 13), и потому мы часть мутаций недосчитываем.
Для другого примера возьмем не «медленный» маркер, как DYS393, а «быстрый», например, DYS390, из той же серии в 3466 гаплотипов субклада R1b-L21. Число аллелей в маркере DYS390:
21 – 3
22 – 22
23 – 228
24 – 2364
25 – 815
26 – 33
27 – 1
Видно, что мутации уже более «размазанные» по аллелям. Считая, что все мутации одношаговые, получаем 1165 мутаций на 3466 аллелей, то есть в среднем 0.336 мутаций на маркер DYS390. Мы видим, что среднее число мутаций в маркере DYS390 для той же серии гаплотипов уже в пять раз выше. Если бы не сложности статистического характера, упомянутые выше, можно было бы полагать, что эта разница отражает количественную разницу в соответствующих константах скорости мутации для маркеров DYS393 и DYS390, но это не совсем так. Константы равны 0.00059 и 0.0022 мутаций на маркер на условное поколение, то есть различаются только в 3.7 раз. Под «сложностями статистического характера» здесь понимаются и введение поправок на возвратные мутации, и несимметричность распределения числа мутаций «вверх» и «вниз» (см. приведенные выше примеры), и наличие нижестоящих субкладов, гаплотипы которых могут (системно) по мутациям отличаться от гаплотипов вышестоящих субкладов, и многие факторы, которые надо учитывать при корректном анализе в ДНК-генеалогии. Примеры даны ниже.
Вопрос 61: Что такое поправки на возвратные мутации, и как они рассчитываются?
Как было пояснено выше, вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели (13 или 24 для случаев маркеров DYS393 и DYS390, рассмотренных выше), и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[57], и в простейшем виде симметричной картины мутаций формула следующая:
где:
λobs = наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов,
λ = среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
В примере с DYS393, рассмотренном выше, поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.067, поправочный коэффициент равен 1.0345, и полная запись расчета следующая:
(1+1.069)/2 = 1.0345
Итак, мы наблюдаем 0.067 мутаций на маркер, а на самом деле их 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В примере c маркером DYS390, также рассмотренном выше, поправка будет значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997, и полная запись
Итак, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
Вопрос 62: Насколько точны (или неточны) расчеты в ДНК-генеалогии? – продолжение Вопроса 32.
В сети довольно часто встречаются сомнения в отношении расчетов в ДНК-генеалогии, например, в таком виде (вопрос взят с международного форума DNA Rootsweb, перевод с английского):
✓ Есть фундаментальная проблема с «научными» расчетами времен жизни общего предка, где расчеты, основаны на частотах встречаемости мутаций разных маркеров. Эти частоты – просто оценки, основанные на встречаемости мутаций в современных гаплотипах. Но когда я смотрю на гаплотипы людей, общий предок которых известен и жил 400–500 лет назад, и я не вижу в их гаплотипах никаких мутаций, то у меня возникают резонные сомнения о надежности расчетов, основанных на мутациях.
Ну что здесь сказать? Когда человек не имеет понятия о том, о чем говорит, и «выходит на публику с сомнениями», когда рассуждают «по понятиям», где надо «по науке», то там может помочь только методичное просвещение. Например, следующее.