Анатолий Клёсов - ДНК-генеалогия от А до Т
Как это работает, и к чему это приводит? Давайте рассмотрим, это очень важно для понимания, чего стоит современный «геномный анализ» в популяционной генетике.
Главная проблема в геномном анализе – это рассортировать фрагменты ДНК от разных людей так, чтобы отличить закономерные сходства фрагментов от случайных. Закономерные сходства наблюдаются тогда, когда фрагменты ДНК этих людей происходят от недавнего общего предка, где понятие «недавний» определяется поставленной задачей. Такие совпадения называют «идентичные по происхождению» (ИПП). В других случаях совпадения являются случайными, по статистическим причинам. Такие совпадения называют «идентичные по сходству» (ИПС). В категорию ИПС попадают также фрагменты ДНК, которые сходны не случайно, а отвечают за важные функции жизнедеятельности человека, которые сформировались и устоялись в результате эволюции человека. В категорию ИПС попадают также фрагменты ДНК, которые веками циркулируют в рамках определенного этноса, особенно если этнос относительно замкнутый (как, например, в еврейских сообществах прошлого).
Суть геномного анализа состоит в том, чтобы сопоставить ДНК от разных людей (если речь о геномном анализе человека), при том, что ДНК людей похожи буквально на 99 %, и что ДНК испещрены мутациями, то есть заменами одних нуклеотидов на другие, и таких замен в ДНК миллионы. В итоге сравниваются доли процентов различий на фоне более 99 % сходства. Но эти сравнения невозможно производить, пользуясь целыми, интактными молекулами ДНК, они производятся после расщепления ДНК на фрагменты разного размера, и компьютер ищет «матчи», то есть совпадения. «Матчи» имеют разную природу. Одни похожи потому что происходят от одного, сравнительно недавнего общего предка (идентичность по происхождению, ИПП), другие похожи по другим причинам (идентичность по сходству, ИПС), не имеющим никакого отношения к общему происхождению. Или имеющим лишь косвенное отношение, например, потому что отражают близкое этническое происхождение, но по комбинации происхождения по мужской и женской линии, где общего предка нет в принципе. В итоге компьютер, подчиняясь определенным программам, которых в интерпретации ДНК используется множество, сортирует фрагменты по разным критериям одновременно – по числу снипов, по размерам фрагментов, по степени сходства, и ни в одном варианте нет однозначных критериев. Фрагменты бывают «крупные», «менее крупные», «более средние», «менее средние», «умеренно малые», «малые», и всех между ними, а и компьютер сам решает, кто кому родственник «по наследственности», а кто «просто похож».
Всю эту кашу компьютер сортирует, и делает выводы, которые по понятным причинам могут быть совершенно далеки от реальности, или частично пересекаться с реальностью, причем степень этой «частичности» может варьироваться в любых пределах. Понятно, что нужны независимые критерии для перекрестной проверки выводов, но популяционные генетики так не работают. Обычно что получилось, то и получилось. Наиболее очевидным независимым критерием была бы гаплогруппа и субклады, которые тут же вводили запреты на происхождение ДНК одного субклада из другого, но популяционные генетики так тоже не работают. У них критерии простые – совпали протяженные сегменты (фрагменты) ДНК – значит, вероятность ИПП выше, значит, общий предок жил не так давно. Совпадают только малые сегменты – значит, предобладает ИПС. Размеры сегментов измеряют в сантиморганах (сМ), где один сантиморган равен примерно миллиону пар нуклеотидов, или такому расстоянию, на котором рекомбинация генов равна примерно 1 %. Есть и ориентировочные формулы, согласно которым если в двух ДНК в среднем совпадают сегменты размером в и сМ, то там на 99 % ИПП, если совпадают сегменты в 9 сМ, то вероятности ИПП и ИПС – 50 % на 50 %, а если совпадают только сегменты в 4 сМ, то там на 99 % ИПС (случайные совпадения), и всего на 1 % ИПП.
Понятно, что эти критерии весьма условны, как весьма условны и выводы. Остается только удивляться, что иногда выводы разумны, но «разумность» здесь «по понятиям», проверить эту разумность, как правило, не получается. А когда применяется проверка с гаплогруппами-субкладами, вся «разумность», как правило, рассыпается. Но еще чаще бывает, что компьютер в целом описал ситуацию правильно, например, что геномы древнего байкальского мальчика и современных американских индейцев совпадают на 14–38 %, и ясно, что это потому, что и у тех, и у других один общий предок – гаплогруппа Р. Но популяционные генетики делают свою интерпретацию – что популяция того байкальского мальчика перешла в Америку и стала предками американских индейцев, что в корне неверно. Подобные же абсурдные интерпретации делались в перечисленных выше случаях. Поскольку авторы соответствующих работ должны понимать, что все их построения построены на песке, то они излагают свои результаты и выводы в крайне вязком виде, практически никогда не напрямую, но в широкую прессу, в СМИ это уже идет в виде, вполне категоричном. К подобным «выводам» мы еще вернемся, они откровенно дискредитируют науку.
Более того, при подобном «анализе» авторы обычно «подтверждают» то, что уже устоялось в науке, даже когда устоялось неверно. Например, что ямная культура принесла индоевропейские языки в Европу. Это противоречит многим наблюдениям и фактам, но на Западе устоялось (российские историки и лингвисты относятся к этому, как правило, скептически, или отрицательно). Но генетические исследования «подтвердили», об этом речь пойдет в разделе про гаплогруппу R1b. А подтвердили, потому что современная популяционная генетика ничего не оспаривает, если что известно или принято – она всегда подтверждает, только чтобы не подумали, что у них что-то не так.
Вывод – данные «геномного анализа» в популяционной генетике надо непременно проверять перекрестно. Если это пока невозможно, стоит воздержаться от слепого их принятия. Наиболее надежная проверка – с помощью подходов ДНК-генеалогии, сопоставлением гаплогрупп, субкладов, гаплотипов, расчетов датировок.
Помимо «байкальского мальчика», гаплогруппа R была также найдена в Германии в неолитической культуре, с датировкой 5600 ± 60 лет назад, субклад R-P224.
R M207, P224/PF6050
Глава 25
Гаплогруппа R1
Как и в гаплогруппе R, среди наших современников носители гаплогруппы R1* (то есть не считая носителей нижестоящих субкладов) пока не найдены. Расчетами по количеству снипов, нижестоящих к данной гаплогруппе, показано, что она образовалась примерно 27600 лет назад[146]. Поскольку не найдено ее носителей, то нет и Проекта гаплогруппы R1. Тем не менее, найдены по меньшей мере два древних ископаемых костных остатка носителей гаплогруппы R1, оба в Германии, один с датировкой 4290 ± 85 лет назад, субклад Р234, другой не датирован, субклад Р233, оба найдены в культуре колоколовидных кубков, вместе с носителями гаплогруппы R1b.
• R1 М173/Р241, M306/PF6147, P225, P231,
P233/PF6142, P234, P236, P238/PF6115, P242/
PF6113, P245/PF6117, P286/PF6136, P294/PF6112
Глава 26
Гаплогруппа R2
Эта гаплогруппа находится в целом на периферии научного интереса западных исследователей, что и находит отражение в степени проработанности ее субкладов:
Диаграмма субкладов гаплогруппы R2 по данным ISOGG (Международного общества генетической генеалогии).
В сети работает Проект гаплогруппы R2, который объединяет 180 носителей данной гаплогруппы (по состоянию на январь 2016 года). Если отобрать из них только те регионы/страны, которые представлены там как минимум пятью гаплотипами (в любом формате), то это страны:
Так что это «ядро» составляет только две трети от всех представленных гаплотипов, остальные рассеяны по многим регионам в небольших количествах. Но среди носителей гаплогруппы R2 есть довольно компактная группа, с относительно недавним общим предков, и это евреи. Посмотрим на дерево гаплотипов.
Дерево состоит из трех основных ветвей. Нижняя правая и нижняя часть дерева – гаплотипы субклада R2a1-L295, который образовался примерно 10 тысяч лет назад. Гаплотипы слева относятся к нижестоящему субкладу R2a1a-L294, возраст которого примерно 7700 лет. Верхняя довольно протяженная ветвь справа – гаплотипы евреев-ашкенази из Украины, России, Белоруссии, Литвы, Польши. Их общий предок жил 1050 ± 150 лет назад. Опять эта датировка, характерная для практически всех ветвей евреев-ашкенази в Европе, что уже обсуждалось выше. В целом же все дерево происходит от общего предка, который по оценкам жил примерно 6 тысяч лет назад, но эта величина может оказаться заниженной из-за неоднородности дерева. Можно было бы провести более надежный анализ по каждой ветви, а затем по предковым гаплотипам каждой ветви, но сейчас нам это не особенно нужно. Общая характеристика дерева получена.