Анатолий Клёсов - Кому мешает ДНК-генеалогия? Ложь, инсинуации, и русофобия в современной российской науке
Надо сказать, что в описанном (упрощенном) варианте есть много допущений. Допущения есть всегда, в любом варианте расчета погрешностей. Например, в данном случае мы принимаем, что погрешность определения константы скорости мутации в 12-маркерных гаплотипах (ее величина равна 0.02 мутаций на гаплотип на условное поколение) составляет ±10 %. Это – эмпирическая величина, полученная при изучении серии данных документальной генеалогии. Такую же погрешность мы принимаем и в случае 67-маркерных гаплотипов, хотя сопоставление ДНК-генеалогических данных с многочисленными данными документальной генеалогии показало, что реальная погрешность равна ±3 %, и в этом случае в примере выше к величине 0.333 следует прибавлять не 0.01, а 0.0009, и итоговая погрешность получится не ±58.6 %, а 57.8 %, что практически одно и то же. Это получается, потому что при всего трех мутациях именно столь малое их число практически полностью определяет погрешность времени до общего предка серии гаплотипов. Только при большом числе гаплотипов и большом числе мутаций общую погрешность начинает определять погрешность определения константы скорости мутаций. Например, при 1000 мутаций в серии гаплотипов погрешность вычисляется, как описано выше, извлечением квадратного корня из 1000 (мутаций), что дает 31.62, далее его обратной величины (0.0316), возведением ее в квадрат (0.001), прибавлением 0.01 (при 10 % погрешности величины константы скорости мутации), что дает 0.011, и, наконец, извлечением квадратного корня из последней величины, что дает 0.105 (то есть ±10.5 %). Это и есть величина погрешности определения времени до общего предка при 1000 мутациях в серии гаплотипов. При величине 1325 лет погрешность тогда равна 1325±140 лет. А если погрешность константы скорости мутаций равна ±3 %, то к величине 0.001 (после возведения в квадрат) следует прибавить не 0.01, а 0.0009, и итоговая погрешность получится не 10.5 %, а 4.4 %, или 1324±60 лет до общего предка.
Но мы предпочитаем иметь преувеличенную погрешность, чем даже реальную, потому что это повышает доверие к получаемым результатам. Бывает, что число мутаций в реальных генеалогиях по разным причинам оказывается заниженным или завышенным по сравнению со средними величинами, и расчетная величина вылетает за пределы указанных погрешностей, вызывая недоверие и претензии к расчетам. Пусть лучше мы перестрахуемся и дадим завышенные погрешности.
Возвращаемся к квадратичным методам расчетов. В данном случае базовый гаплотип не рассматривается, и производится расчет разницы в аллелях «всех между всеми». В случае приведенных выше трех 12-маркерных гаплотипов с тремя мутациями сумма квадратов их попарных отклонений друг от друга (в мутированных маркерах) равна 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 + 12 = 12, деленная на 2, поскольку в каждом маркере число квадратов мутаций считалось дважды, деленное на число маркеров в гаплотипе (12) и на квадрат числа гаплотипов (9), и, наконец, на величину константы скорости мутации на маркер для 12-маркерных гаплотипов (0.00167). Получаем 12/2/12/9/0.00167 = 33 условных поколений, то есть 825±480 лет до общего предка. В квадратичных методах расчетов поправка на возвратные мутации не вводится, она уже учтена самим методом расчета.
Как видим, мы имеем некоторую проблему. Линейный метод показал для этих трех гаплотипов с тремя мутациями 1325±780 лет до общего предка, квадратичный метод – 825±480 лет до общего предка. В принципе, обе величины находятся в пределах погрешности расчетов, но утешение от этого малое. Причина проста – три мутации на трех гаплотипах – это не статистика. Методы, описанные выше, базируются на статистическом распределении аллелей и мутаций в гаплотипах. Аналогия – если вы бросите монету три раза, или четыре для четности, то вероятность получения 50 %-ного выпадения орла и решки будет малой. Давайте попробуем для иллюстрации. Буду использовать компьютерные «броски» для объективности. Итак,
– первая четверка бросков, все четыре орла
– вторая попытка, решка и три орла
– третья попытка, решка и три орла
– четвертая попытка, три решки и орел
– пятая попытка, решка и три орла
– шестая попытка, две решки и два орла
– седьмая попытка, три решки и орел
– восьмая попытка, две решки и два орла
– девятая попытка, три решки и орел
– десятая попытка, решка и три орла
Результат налицо – из десятка попыток по четыре броска, только два раза выпали две решки и два орла. В целом же из сорока бросков 17 раз выпала решка, и 23 раза орел. Ну как, будем считать вероятность выпадания того или другого? Или здравый смысл остановит такие расчеты? Кстати, с доверительным интервалом в две сигма (95 %) решка и орел выпадут из сорока бросков 20±6 раз для решки, и 20±6 раз для орла, так что никакого противоречия у нашего опыта со статистикой нет. А из четырех бросков получится 2±2 для решки и 2±2 раза для орла. Тоже все в порядке, никаких неожиданностей.
А люди берут три-четыре коротких гаплотипа, а то и два, и удивляются, почему результаты «бегают по всему полю».
Вопрос 74: Автоматический калькулятор Килина-Клёсова
Давайте теперь проверим, какой результат ближе к реальности в случае трех коротких гаплотипов, рассмотренных выше – расчет по линейному методу (1325±780 лет до общего предка) или квадратичному (825±480 лет до общего предка). Кликаем на линк, ведущий к калькулятору Килина-Клёсова[85] на сайте http://dna-academy.ru/kilm-klyosov/, вводим все три серии аллелей под соответствующими маркерами, и через долю секунды получаем результат – 1304±764 лет до общего предка линейным методом и 863±456 лет – квадратичным.
Мы видим, что при столь малом числе гаплотипов и мутаций датировки нестабильны. Но в такой ситуации я бы рекомендовал склоняться к линейному методу, поскольку расчет по трем аллелям, пусть и для 12 маркеров, вряд ли является удовлетворительным. Но еще лучше – просто давать обе датировки, поясняя, какая получена каким методом.
Рис. 14. Расчет времени до общего предка для демонстрационной серии из трех гаплотипов в 12-маркерном формате на калькуляторе Килина-Клёсова. Соответствующие колонки показывают 1304±764 лет до общего предка для линейного метода, и 863±456 лет для квадратичного метода, что, впрочем, совпадает в пределах погрешности расчетов. Остальными колонками следует пренебречь.
Как работает калькулятор Килина-Клёсова? Он многофункциональный, и здесь нет возможности объяснять все его функции, кроме основной – быстро производить расчеты по гаплотипам от любых коротких (вплоть до единичных, отдельных маркеров) до 111-маркерных, в количествах до 10 тысяч гаплотипов. Калькулятор моментально, в ходе расчетов, определяет степень диперсии аллелей по каждому маркеру, и показывает ее количественную величину. Можно выставлять пороговую величину степени дисперсии, тогда калькулятор выбрасывает соответствующие маркеры из расчетов. Это особенно полезно, когда серия гаплотипов содержит включения посторонних гаплотипов, или нижестоящих субкладов, у которых некоторые маркеры имеют другие значения, чем у основной серии. Например, в серии гаплотипов гаплогруппы R1a значение маркера DYS392 обычно имеет величину 11, а в отдельной ветви «Старая европейская ветвь» это значение равно в основном (или исключительно) 13. Калькулятор «знает», что маркер DYS392 настолько «медленный» (константа скорости мутации равна 0.0004 мутаций на маркер на условное поколение), что, например, для тысячи гаплотипов в среднем должно наблюдаться примерно 40 мутаций за сто условных поколений, потому что 40/1000/0.0004 =100 условных поколений. При увеличении количества аллелей DYS393=13 в серии гаплотипов, дисперсия возрастает и в итоге превышает граничную величину 2.6, обычно используемую при расчетах. При величине 2.61 маркер блокируется, оставляя все остальные – незаблокированные – функциональными. Если в рассматриваемой серии гаплотипов блокируются сразу несколько маркеров, то это указание на то, что что-то с выборкой не так.
Поправка на возвратные мутации в калькуляторе не вводится, она уже заложена в самом калькуляторе, как для линейного метода, так и квадратичного. Калькулятор на 111 маркеров может использоваться для расчетов гаплотипов в любом формате, включая 67-маркерные, но для удобства нами создана серия калькуляторов для 17-маркерных и для самых медленных, 22-маркерных гаплотипов.
Калькулятор может быть использован для комбинаций серий гаплотипов для любых форматов. Это возможно потому, что в квадратичном методе он считает «по вертикали», по маркерам, а в линейном – «по горизонтали», по гаплотипам.
Вопрос 75: Поясните, пожалуйста, суть логарифмического метода в ДНК-генеалогии.
Логарифмический метод – самый простой в исполнении. Несколько примеров расчетов логарифмическим методом были даны выше. Суть его заключается в том, что для серии гаплотипов берется отношение общего числа гаплотипов в серии к числу идентичных (базовых) гаплотипов в той же серии, далее берется натуральный логарифм этого отношения, и делится на константу скорости мутации в данном гаплотипе. После этого вводится поправка на возвратные мутации, поскольку они возвращают мутированные гаплотипы обратно в исходные немутированные, и тем самым занижают датировку времени жизни общего предка. Поправка на возвратные мутации рссчитывается исходя из числа базовых гаплотипов в серии.