Книга: Кому мешает ДНК-генеалогия?

Глава 3 Глоссарий ДНК-генеалогии

<<< Назад
Вперед >>>

Глава 3

Глоссарий ДНК-генеалогии

Вопрос 42: Что такое ДНК и что такое Y-хромосома?

ДНК, дезоксирибонуклеиновая кислота, сохраняет и реализует генетическую программу развития и функционирования организма человека. Находится в ядре клетки в составе 46 хромосом, одна из которых, самая маленькая по размеру – мужская половая хромосома, или Y-хромосома. В ней примерно 58 миллионов нуклеотидов, повторяющихся структурных единиц ДНК-аденина, гуанина, тимина и цитозина. Все 46 хромосом в совокупности состоят из трёх миллиардов нуклеотидов, и в их составе примерно 30 тысяч генов, в среднем по 652 гена на хромосому. В Y-хромосоме всего 27 генов, остальная часть – некодирующая, «никчёмная», как её часто называют, или, скорее, называли еще недавно. В ней находится много повторов нуклеотидных цепочек, часть которых генетики выбрали в качестве гаплотипов для ДНК-генеалогии. Копирование, или репликацию ДНК выполняет ДНК-зависимая ДНК-полимераза (в составе большого комплекса, реплисомы), которая иногда допускает ошибки, называемые мутациями.

Вопрос 43: Что такое маркер в ДНК-генеалогии?

МАРКЕР, или локус, сегмент, участок Y-хромосомы (в контексте данной книги), выбранный для определения числа повторов нуклеотидов для целей ДНК-генеалогии. Число повторов нуклеотидов в локусе называют «аллель». Маркеры нумеруют и присваивают им индексы, например, DYS19, то есть «DNA Y Segment, локус номер 19». В этом конкретном локусе повторяется четвёрка (квадруплет) ТАГА, то есть тимин-аденин-гуанин-аденин, причём повторяется у разных людей от 11 до 19 раз подряд. Эти границы чисто эмпирические. Возможно, у кого-то среди людей Земли он повторился 10 или 20 раз подряд, но вероятность такого события крайне мала. Число повторов – индивидуальная характеристика человека, и при увеличении числа маркеров совокупность аллелей становится всё более индивидуальной. В ранних академических исследованиях типировали (то есть определяли последовательности) от 5 до 9 маркеров, в современных – от 10 до 17, реже до 23 маркеров, в коммерческих работах обычно типируют от 12 до 111 маркеров, и выше – в специальных геномных исследованиях (стандартные варианты – 12, 17, 25, 37, 67 и 111 маркеров). Ниже приведен пример гаплотипа автора данной книги, в котором типировали 431 маркеров:

13 24 16 11 11 15 12 12 10 13 11 30 16 9 10 11 11 24 14 20 34 15 15 16

16 11 11 19 23 15 16 17 21 36 41 12 11 11 9 17 17 8 11 10 8 10 10 12 22

22 15 10 12 12 13 8 15 23 21 12 13 11 13 11 11 12 13 31 15 9 15 12 25

27 19 12 12 12 12 10 9 12 11 10 11 12 30 12 14 25 13 9 10 18 15 20 12

24 15 12 15 24 12 23 19 11 15 17 9 11 11 10 12 15 15 10 10 8 8 9 13 7 8

10 10 13 14 14 15 31 32 11 10 9 9 8 24 8 8 8 16 22 22 24 21 23 14 16

25 28 15 15 6 11 14 15 8 14 11 12 10 11 10 10 11 11 18 10 12 10 7 10 5

8 9 5 5 11 15 8 29 6 7 10 13 11 6 7 7 7 16 10 11 16 22 23 11 12 12 10 7

12 12 13 7 3 20 18 11 11 8 9 13 13 10 11 22 12 16 13 14 11 11 12 10 12

9 13 9 12 11 12 16 7 14 12 10 9 10 4 7 7 13 13 12 11 9 11 10 11 14 8 4 8

6 11 11 16 9 11 13 19 12 12 9 10 9 9 11 11 9 9 14 14 15 9 7 10 12 14 13

14 14 12 6 32 10 11 16 8 7 17 17 11 11 6 13 12 13 11 10 7 13 12 7 12 12

7 14 17 17 11 25 8 8 12 8 8 1113 11 12 10 8 13 8 13 14 10 11 9 20 17 15

36 9 13 14 39 33 36 9 10 10 12 18 19 13 9 14 44 10 8 14 9 8 20 11 11

11 11 10 9 9 9 8 8 8 8 9 11 9 23 11 9 16 31 8 20 8 13 12 8 16 10 9 33

27 23 22 10 8 12 10 8 14 8 8 32 55 7 7 5 9 6 11 11 11 13 9 39 33 7 8

27 7 5 13 7 15 28 25 60 42 12 31 22 20 12 3 4

Таких гаплотипов в мире определено пока всего несколько десятков, так что практическая польза от них пока невелика, за исключением нескольких специальных случаев, которые будут пояснены ниже.

Вопрос 44: Что такое аллель в ДНК-генеалогии?

АЛЛЕЛЬ, число тандемных повторов определенных блоков нуклеотидов в маркерах. Обычно в биологии понятие аллели относят к разным формам генов, расположенных в одинаковых маркерах хромосом одного типа, то есть гомологичных хромосом, и которые (аллели) при кодировании приводят к появлению различных вариантов одного и того же признака. В ДНК-генеалогии аллели задают разное число тандемных повторов в одном и том же маркере. Выше был приведен пример, когда в маркере DYS19 число повторов квадруплета ТАГА (TAGA) может быть от 11 до 19 раз. Числа аллелей в маркерах – важнейшая характеристика в ДНК-генеалогии, поскольку статистическое отклонение числа аллелей от предкового в каждом маркере гаплотипа позволяет рассчитывать, когда жили общие предки популяций, и эти расчеты работают на временах от сотен лет до нескольких миллионов лет.

Вопрос 45: Что такое гаплотип в ДНК-генеалогии?

ГАПЛОТИП – это совокупность аллелей, то есть наборов повторов в маркерах. Гаплотип записывается в виде набора чисел, которые отражают число аллелей в каждом маркере. Например, предковый гаплотип славян гаплогруппы R1a Русской равнины: в 12-маркерном формате (формате FTDNA)

13 25 16 11 11 14 12 12 10 13 11 30

в 25-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16

(здесь поставлено тире между первой и второй панелью маркеров, точнее – аллелей, потому что в длинных последовательностях чисел легко потеряться, а тире представляют собой метки, на которые можно ориентироваться),

в 37-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 11 19 23 16 16 18 19 35 38 14 11

в 67-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 11 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11

10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13

в 111-маркерном формате

13 25 16 11 11 14 12 12 10 13 11 30–15 9 10 11 11 24 14 20 32 12 15

15 16–11 12 19 23 16 16 18 19 35 38 14 11–11 8 17 17 8 12 10 8 11

10 12 22 22 15 10 12 12 13 8 14 23 21 12 12 11 13 11 11 12 13–32 15

9 15 12 26 27 19 12 12 12 12 10 9 12 11 10 11 11 30 12 13 24 13 9 10

19 15 20 11 23 15 12 15 24 12 23 19 10 15 17 9 11 11

Вопрос 46: Что такое «стандартная запись гаплотипов в формате FTDNA»?

ФОРМАТ FTDNA – форма записи гаплотипов, принятая компанией Family Tree DNA (США), основной компанией в мире по тестированию ДНК, и далее принятая в ДНК-генеалогии. В статьях по популяционной генетике такая запись практически не используется, и по простой причине – протяженные гаплотипы там не используются. Порядок записи гаплотипов в попгенетике другой, и часто нестандартный, меняющийся у разных авторов. Но поскольку гаплотипы в попгенетике используются редко, то им такой разнобой не мешает.

Порядок маркеров в 12-, 25-, 37-, 67– и 111-маркерных гаплотипах следующий (в верхней строке – порядковый номер маркера, в нижней – индекс маркера DYS):


Вопрос 47: Что такое дерево гаплотипов, и какую программу для их построений можно использовать?

ДЕРЕВО ГАПЛОТИПОВ, серия гаплотипов, рассортированная с помощью специальной компьютерной программы и представленная в виде круговой, спиральной или линейной диаграммы (см. ниже). Эта диаграмма группирует гаплотипы по динамике их мутаций во всех маркерах, и таким образом представляет дерево в виде совокупности ветвей гаплотипов, соответствующих их наиболее вероятным ДНК-генеалогическим линиям. Например, среди гаплотипов гаплогруппы R1a встречаются гаплотипы с «типовой» мутацией, в которой маркер DYS388=12 заменён на DYS388=10. Это отдельная (и древняя) ДНК-генеалогическая линия, потому что и многие остальные мутации более присущи этой линии «10», по сравнению с мутациями для линии «12». Действительно, на дереве гаплотипов линия «10» выделяется в отдельную ветвь, которую следует анализировать отдельно. В настоящей книге деревья гаплотипов строились с помощью программы PHYLIP[53].

В качестве примера приведем дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент) (рис. 8.).

Вопрос 48: Что такое гаплогруппа в ДНК-генеалогии?

ГАПЛОГРУППА, совокупность гаплотипов, объединённая «групповой» необратимой мутацией, присущей определённому человеческому роду, то есть потомкам одного «патриарха», как правило, тысячелетия назад. Эквивалентна понятию «род» в ДНК-генеалогии. Эти мутации («снипы») выбирают по определённым критериям. Гаплогруппой также называют сам род в таких выражениях, как «гаплогруппа мигрировала шесть тысяч лет назад на восток», понимая, естественно, что мигрировали носители данной гаплогруппы. В настоящее время классификация включает 20 основных гаплогрупп (плюс A0 и A00), от А до Т в алфавитном порядке, и тысячи «нисходящих» гаплогрупп и субкладов. Индекс гаплогруппы с надстрочным * (например, I*) показывает, что «нисходящих» мутаций у их носителей в классификации пока не обнаружено. Все тестированные носители – прямые потомки данной гаплогруппы или субклада.



Рис. 8. Дерево гаплотипов гаплогруппы I1 из 800 гаплотипов в 111-маркерном формате в нескольких видах графического представления (последние три дерева – фрагмент)

Вопрос 49: Что такое «бинарная гаплогруппа»?

БИНАРНАЯ ГАПЛОГРУППА, устаревшее название гаплогруппы, приводится здесь, потому, что всё ещё иногда встречается в публикациях. То же, что и «биаллельная гаплогруппа», потому что у мутации, её определяющей (снип, SNP, см. ниже) есть всего два состояния – либо мутация есть, либо её нет. То есть в соответствующем участке ДНК есть две аллели – исходная и мутированная. В отличие от них, тандемные мутации, или тандемные повторы (см. выше) являются, как правило, множественными и имеются в популяции в виде различных аллелей, то есть «полиаллельными».

Вопрос 50: Что такое субклад в ДНК-генеалогии?

СУБКЛАД, подчинённая, «нижестоящая» гаплогруппа, ДНК-генеалогическая ветвь в пределах той же гаплогруппы, все члены которой имеют не только мутацию основной гаплогруппы, но и дополнительную мутацию, общую только для данной ветви/ субклада. Например, гаплогруппа R имеет «подчинённые», или «дочерние» гаплогруппы R1 и R2; R1, в свою очередь, имеет R1a и R1b и так далее. R1a в настоящее время имеет 66 субкладов, утвержденных Международным обществом генетической генеалогии, R1b в настоящее время имеет 443 «официальных» субкладов.

Вопрос 51: Что такое мутация в ДНК-генеалогии?

МУТАЦИЯ, в ДНК-генеалогии биологическая ошибка при копировании последовательности Y-хромосомной ДНК, в результате которой (ошибки) или меняется число аллелей в определённом локусе (STR мутации, от Short Tandem Repeats), или происходит модификация гаплогруппы (SNP мутации, от Single Nucleotide Polymorphism). В отличие от мутации в генах, вызванной, например, радиоактивным излученияем, и при которой нуклеотид «ломается», то есть мутация там деструктивная, мутация в гаплотипах происходит обычно путем ошибочного копирования достаточно длинных фрагментов ДНК, при котором (копировании) происходит или удлинение, или укорачивание копируемого фрагмента ДНК. Это – не деструкция, а модификация. Но поскольку происходит отклонение от исходной «матрицы», то есть происходит ошибка копирования, то это тоже называют мутацией.

Вопрос 52: Что такое тандемная мутация в ДНК-генеалогии?

ТАНДЕМНАЯ МУТАЦИЯ в гаплотипе – это изменение числа аллелей в маркере. Происходит в среднем в маркере примерно раз в 500 поколений, хотя для каждого маркера своя скорость мутаций, которая для первых 37 маркеров варьируется от одного раза в 11100 поколений (DYS426, раз примерно в 280 тысяч лет) до одного раза в 140 поколений (CDYb, раз примерно в 3500 лет). Среди 67 маркеров есть такие, в которых мутация происходит раз в 125 тысяч поколений, то есть раз в 3.1 миллионов лет. По скоростям мутаций это сопоставимо со снипами. В популяции обычно наблюдается множественность аллелей в одних и тех же маркерах, то есть вариации аллелей. Совокупность этих вариаций позволяет рассчитывать время, когда жил один или несколько наиболее отдаленных предков популяции. Разные маркеры имеют разные скорости мутации в маркере, поэтому диапазоны вариации аллелей в разных маркерах разные.

Например, DYS426 – очень «медленный» маркер, всё человечество имеет всего четыре варианта аллелей – 10, 11, 12 и 13. Действительно, этот маркер имеет малую скорость мутации, она по оценкам равна 0.00009 мутаций на маркер на условное поколение. Это значит, что через пять тысяч лет среди тысячи наших современников всего у пятнадцати произойдет мутация в этом маркере – за 5 тысяч лет! Это несложно проверить, используя логарифмическую формулу, описанную выше: [ln(1000/985)]/0.00009 = 168 ? 202 условных поколения, то есть 5050 лет.

Напротив, наиболее часты мутации в маркерах DYS449, CDYa, CDYb, у которых на Земле обнаружено 12, 13 и 13 разных аллелей, а именно от 25 до 36, от 28 до 40, и от 31 до 43, соответственно.

Вопрос 53: Поясните понятие «среднее число мутаций на маркер»

Это – важнейшая величина в ДНК-генеалогии, она напрямую связана с гаплотипом прямого предка, от значения аллелей которого и отсчитываются мутации. В серии гаплотипов современников, потомков одного общего предка (то есть принадлежащих одной ДНК-генеалогической линии) насчитывается определённое суммарное количество мутаций. Чем больше прошло времени от общего предка серии гаплотипов (популяции), тем больше суммарное количество мутаций в рассматриваемой серии гаплотипов. Таким образом, отношение этого суммарного количества мутаций во всех маркерах (от всех аллелей) к общему числу маркеров есть мера того, как давно жил общий предок. Это есть базовое положение ДНК-генеалогии. Это отношение можно откалибровать в поколениях или годах по абсолютной шкале времени при наличии хронологических «реперных точек».

Поскольку число маркерах в гаплотипах достигает – для обычно используемых гаплотипов в ДНК-генеалогии – 111, то в каждом маркере за определенное число лет от общего предка накапливается определенное среднее количество мутаций. Например, в серии из 968 гаплотипов гаплогруппы I1 за 3690±370 лет, прошедшие от общего предка современных носителей гаплогруппы, в маркере DYS19 накопилось 263 мутации. При известной константе скорости мутации для маркера DYS19, полученной независимым путем и усредненной по всем выборкам и по всем гаплогруппам, и равной 0.00179 мутаций на маркер за условное поколение, получаем, что общий предок жил примерно 263/968/0.00179 = 152 условных поколений назад, или примерно 152x25 = 3800 лет назад. Как видим, это в пределах погрешности измерений, поскольку величина 3690±370 лет, показанная выше, была рассчитана по всем 968 гаплотипам в 111-маркерном формате. Мы постоянно пишем «примерно», потому все такие расчеты носят статистический характер. Даже 263 мутации, полученные прямым путем, все равно «примерные», и по законам статистики имеют погрешность ±6.2 %, что дает 263±16 мутаций, и это при щадящей достоверности в одну «сигма», то есть с надежностью 68 %. При надежности в 95 % это было бы 263±32 мутации. Далее, при расчетах по всем гаплотипам поправка на возвратные мутации вводилась, а при расчетах по одному маркеру она для простоты не вводилась. Наконец, величина константы скорости мутации (0.00179 мутаций на маркер за условное поколение) тоже определена с определенной погрешностью. Все это заставляет для корректности писать «примерно».

Еще пример, для особенно древнего общего предка, на этот раз гаплогруппы I2, который жил 9575±960 лет назад. В маркере DYS426 в серии из 244 гаплотипов накопилось всего 8 мутаций, поскольку это один из самых «медленных» маркеров, его константа скорости мутации равна 0.00009 мутаций на маркер за условное поколение. Получаем, что общий предок жил примерно 8/244/0.00009 = 364 условных поколений назад, или примерно 364х25 = 9100 лет назад. Это опять в пределах погрешности измерений, поскольку величина 9575±960 лет, показанная выше, была рассчитана по всем 244 гаплотипам в 111-маркерном формате.

Надо добавить, что величины констант скоростей мутаций определяли при изучении многих тысяч гаплотипов. В первой обширной статье по этой теме[54], опубликованной в 2011 году, и подводящей итоги четырехлетних исследований, рассматривали 3160 гаплотипов, из них 2488 гаплотипов в 67-маркерном формате, а в недавней статье[55] рассматривалисьь уже 11850 гаплотипов в 111-маркерном формате.

Вопрос 54: Как рассчитывают погрешности в ДНК-генеалогии?

ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ, важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ±10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.

Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:


Таким образом, погрешность расчетов для 100 мутаций в серии равна ±14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).

Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ±28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, задавание доверительного интервала в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ±10 % является завышенной, на практике она не превышает ±2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ±14.14 %, а ±10.31 %.

Тем не менее, мы рекомендуем (и делаем это сами) давать результаты расчетов при завышенной погрешности, как описано выше. Лучше так, чем быть обвиненными в завышении «точности расчетов».

Погрешности рассчитываются по тем же правилам для количества мутаций и для скоростей мутаций в отдельных маркерах, и в гаплотипах, содержащих любое количество маркеров. Например, в маркере DYS391 для серии из 275 гаплотипов гаплогруппы N1c1 наблюдается 59 мутаций. По правилам статистики при одной сигма эти 59 мутаций на самом деле соответствуют 59±8 мутаций, так что неопределенность, или погрешность начинаются уже здесь. Погрешность получена как обратная величина квадратного корня, переведенная в величину 13.02 %. Если переводить это число мутаций в среднее число мутаций на маркер, получаем 59/275 = 0.2145, но погрешности целесообразно записывать уже в конце расчетов, чтобы не усложнять вычисления. С учетом поправки на возвратные мутации (пояснено ниже) получаем, что среднее число мутаций на маркер равно 0.2402, и поскольку значение константы скорости мутации для маркера DYS391 равно 0.0022, получаем, что «возраст» для маркера DYS391 для данной серии гаплотипов равен 0.2402/0.0022 = 96 условных поколений, или 2400 лет. Погрешность здесь уже больше, чем рассчитанные выше ±13.02 %, потому что к ней добавляется погрешность определения константы скорости мутации, которая в данном случае не менее ±30 %. В итоге обратную величину квадратного корня из 59 возводим в квадрат (получая 0.01695), прибавляем 0.09 (квадрат погрешности в определении константы скорости мутации), извлекаем квадратный корень из полученной суммы, и находим, что погрешность (которое еще называют средним квадратичным отклонением) равна в данном случае ±32.7 %. Мы видим, что при введение в расчеты константы скорости мутации погрешность более чем удвоилась. Получаем, что маркер DYS391 в данной серии указывает на «возраст» выборки 2400±800 лет.

Но когда расчет ведется по всем маркерам сразу, а не его индивидуальным величинам, то число аллелей и мутаций в них идет на тысячи, и погрешность получаемого «возраста» резко снижается, но никогда не становится меньше, чем погрешность определения константы скорости мутации. Последняя обычно принимается за ±10 %, хотя определенно меньше этой величины, как пояснено выше.

Вопрос 55: Что такое «снип» в ДНК-генеалогии?

СНИП, «гаплогруппо-образующая мутация», от английского сокращения SNP (Single Nucleotide Polymorphism), практически необратима, происходит, как правило, на одном нуклеотиде, превращая один нуклеотид в другой, несвойственный для данной последовательности ДНК. Это приводит к появлению своебразной «метки», которая практически навсегда наследуется потомками. Именно поэтому каждый род (в понятиях ДНК-генеалогии) носит характерную метку и может быть надёжно и количественно отличим один от другого. Снипы обозначают индексами, например, Z280 (это – «входная» мутация для ДНК большинства этнических русских гаплогруппы R1a), M343 («входная» мутация в гаплогруппу R1b), L21, что эквивалентно снипу S145 (мутация, определяющая один из наиболее распространных субкладов в центральной и западной Европе), и так далее. Первая буква снипа показывает, в каком научном коллективе снип идентифицирован. Наиболее используемые индексы следующие:

М, лаборатория под руководством Peter Underhill, Stanford University (США);

Р, лаборатория, руководимая Michael Hammer, University of Arizona (США);

•S, лаборатория, руководимая James F. Wilson, Edinburgh University (Шотландия);

L, исследовательский центр под названием Family Tree DNA's Genomics Research Center (США).

U, университет центральной Флориды (Lynn M. Sims и Jack Ballantyne) и университет Gonzaga (Dennis Garvey);

V, университет La Sapienza, Rosaria Scozzari and Fulvio Cruciani (Рим, Италия);

CTS, лаборатория Chris Tyler-Smith, The Wellcome Trust Sanger Institute, Hinxton (Англия)

Page, David C. Page, Whitehead Institute for Biomedical Research

Z и DF, международная группа независимых исследователей, работающих с геномными базами данных

А, Thomas Krahn, YSEQ.net, Houston, Texas (США)

FGC, Full Genomes Corp. of Virginia and Maryland (США)

Y и YP, группа независимых исследователей Y Full Team, работающих с геномными данными

BY, группа Big Y, компания Family Tree DNA, Houston, Texas (США)

F, лаборатория Li Jin, Fudan University, Shanghai (Китай)

KMS, группа российских и международных исследователей

•N, лаборатория биоинформатики, Institute of Biophysics, Chinese Academy of Sciences, Beijing (Китай)

PK, Biomedical and Genetic Engineering Laboratories, Islamabad (Пакистан).

Вопрос 56: Как измеряют скорости мутаций в ДНК-генеалогии?

СКОРОСТЬ МУТАЦИИ, средняя частота изменения числа повторов в маркере, обычно измеряется в числе мутаций на условное поколение в 25 лет. Средняя скорость мутаций составляет 0.00167 и 0.00183 на маркер на условное поколение для первых 12-ти и 25-ти маркеров в стандартном формате гаплотипов (см. выше), соответственно. Для первых 37-и маркеров средняя скорость мутаций составляет 0.00243 на маркер на поколение, для первых 67, 111 и 409 маркеров (см. ниже) – 0.00178-0.00179 мутаций на маркер на поколение. В неопределённых ситуациях для полуколичественной оценки часто принимается в виде «канонической» величины 0.002 мутаций на маркер на условное поколение.

В реальных условиях скорости мутаций иногда измеряют по мутациям в гаплотипах в одном поколении на большом числе пар отец-сын. Однако полученные данные не могут быть использованы для практических расчетов, так как даже при столь большом количестве, как 1700 пар отец-сын почти в половине изученных маркеров мутаций или не наблюдалось (и таких маркеров было большинство), или наблюдались всего одна-две мутации, что явно не дает приемлемой статистики.

Еще пример – при сравнительном изучении 1752 пар гаплотипов в 17-маркерном формате было выявлено 84 мутации. Из них 83 были одношаговые (98,8 %) и одна – двухшаговая (1,2 % от всех). Поскольку все 1752 гаплотипа содержали 1752 х 17 = 29784 маркера, то средняя скорость мутаций соответствовала 84/29784 = 0.00282 мутации на маркер на поколение, медиана была равна 0.0025 мутации на маркер на поколение. Из этих 84 мутаций 43 мутации были «вверх» (число повторов в аллели возросло) и 41 – «вниз». Самая высокая скорость мутаций была в маркере DYS458 (0.0074 мутаций за поколение), самая низкая – в маркере DYS448 (0.0003 мутаций за поколение, то есть примерно в 25 раз медленнее). Когда все отцы были подразделены на две (неравные) группы – те, у кого произошла мутация в гаплотипах, и те, у кого мутаций не было, то средний возраст первых и вторых составил – при рождении сына – 34.4±11.6 лет (округленно 34±12) и 30.3±10.2 лет (округлённо 30±10). Хотя разница в возрасте и имела место, эти величины находятся в пределах погрешности эксперимента. Объединение всех опубликованных данных подобных экспериментов выявило 331 мутацию на 135212 маркерах, то есть средняя скорость оказалась равна 0.00244 мутации на маркер за поколение. При сопоставлении скоростей мутаций с генеалогическими данными и историческими событиями (при калибровке) средняя скорость мутаций в 17-маркерных гаплотипах составила 0.0020 мутаций на маркер на поколение.

Эти оценки в целом приемлемы для расчетов, но только полуколичественно. Дело в том, что 84 мутации для 1752 пар гаплотипов – это неважная статистика. Мало того, что 84 мутации – это на самом деле 84±9 мутаций с 68 %-ной доверительностью, и 84±18 мутаций с 95 %-ной доверительностью, но это только для 17-маркерных гаплотипов, то есть для более протяженных (да и для более коротких) гаплотипов эти константы неприменимы. Далее, при 84 мутациях на 1752 пар гаплотипах и при 17 маркерах даже при относительно высоких скоростях мутаций в отдельных маркерах на них приходилось всего несколько мутаций. Например, в маркере DYS458, в котором наблюдалось максимальное количество мутаций, их было всего 13, что дало константу скорости мутации 13/1752 = 0.0074 мутаций на маркер на поколение. В другой серии экспериментов по парам отец-сын получили величину константу скорости мутации 0.0084 мутаций на тот же маркер на поколение. В наших исследованиях по 11 тысячам гаплотипов мы получили величину 0.0062 мутаций на маркер на поколение[56]. Но с такими экспериментами, как в цитируемой статье, дело на самом деле хуже – например, сообщенную в статье величину константы скорости мутации 0.0003 для DYS448 получить вообще нельзя, так как даже при одной мутации на все 1752 пары отец-сын получится 1/1752 = 0.0006, то есть скорость вдвое выше. На самом деле ошибка получилась из-за статистически малого числа мутаций. По нашим данным, в маркере DYS448 константа скорости мутаций равна 0.0014 мутаций на маркер за поколение, то есть для 1752 пар отец-сын авторы эксперимента должны были получить 2.45 мутации, то есть 2.45/1752 = 0.0014. Но 2.45 мутаций получить невозможно, можно две или три, но авторы и этого не получили, что неудивительно. Если бросить монету два или три раза, никакой статистики не получится.

Вопрос 57: Какова средняя скорость мутаций не на маркер, а на гаплотип?

СРЕДНЯЯ СКОРОСТЬ МУТАЦИИ НА ГАПЛОТИП, для первых 6-ти маркеров в «научном формате», DYS19, 388, 390, 391, 393, 393 – 0.0074 мутаций на гаплотип на поколение, для первых 12-ти маркеров (первая панель маркеров в формате

FTDNA) – 0.020 мутации на гаплотип на поколение, для первых 25-ти маркеров – 0.046 мутаций на гаплотип на поколение, для первых 37-ти маркеров – 0.09 мутаций на гаплотип на поколение, для 67-ми маркеров – 0.12 мутаций на гаплотип на поколение, для 111 маркеров – 0.198 мутаций на гаплотип на поколение. Отсюда сразу можно заключить, что если два 67-маркерных гаплотипа отличаются, например, на 6 мутаций, то они разошлись от общего предка, который жил 6/2/0.12 = 25 поколений назад, или 625 лет назад. Однако для таких расчётов надо знать, что оба гаплотипа относятся к одной гаплогруппе и одному субкладу, и понимать, что для двух гаплотипов и столь немногих мутаций подобные расчёты могут быть только оценочными. Например, в данном конкретном случае оценка равна 625±260 лет с 68 %-ной надёжностью.

Вопрос 58: Что такое «бутылочное горлышко популяции» и какова его значимость в ДНК-генеалогии?

«БУТЫЛОЧНОЕ ГОРЛЫШКО» ПОПУЛЯЦИИ – это резкое или медленное сокращение популяции до критической численности, после чего популяция либо выживает (проходя «бутылочное горлышко»), либо терминируется. Причинами «бутылочного горлышка» могут быть события, катастрофические в отношении популяции (природные катаклизмы, эпидемии, войны), либо медленное вымирание популяции. Обычно выжившая популяция «обнуляет» набор своих мутаций в гаплотипах до гаплотипа выжившего члена популяции, давшего выжившее мужское потомство, и он становится «общим предком» для потомков. Исследования показывают, что многие популяции в прошлом имели пульсирующий характер и многие популяции терминировались, не проходили «бутылочное горлышко». Многие древние популяции остались во «фрагментах», в серии относительно недавних популяций, «кластеров», которые очень значительно отличаются друг от друга по гаплотипам, оставаясь внутри одной и той же гаплогруппы. Примеры – гаплотипы американских индейцев, африканские гаплотипы, гаплотипы Русской равнины, ряд европейских гаплотипов.

Для описания этих явлений в популяционной генетике используют понятие «генетический дрейф». Это понятие для ДНК-генеалогии непригодно, поскольку термин «генетический» здесь некорректен, в ДНК-генеалогии с генами не работают. Принятое в попгенетики понятие «эффект основателя» также не привилось в ДНК-генеалогии, и понятно, почему – оно не несет никакой информации, и является просто калькой с соответствующего англоязычного термина. «Бутылочное горлышко», впрочем, тоже калька, но оно понятно в смысловом отношении. Именно из-за соответствующих «бутылочных горлышек» у гаплогрупп E, G, I, J на 99 – 100 % преобладает аллель DYS426=11, а у гаплогрупп R на 99 % преобладает DYS426=12. Иначе говоря, сдвиг аллели у далёких предков от 11 к 12 в так и остался в потомках соответствующих гаплогрупп. Подобный (по сути) эффект привёл к тому, что в «быстром» маркере DYS449 в разных гаплогруппах осталось не более 30 % наиболее частой аллели (ср. с 99 % или 100 % в «медленных» маркерах), и она «плывёт» от величины DYS=28 (гаплогруппа I) к 29 (J2), 30 (R1b), 31 (E3a и G) и 32 (E3b и R1a).

Вопрос 59: Что такое база данных IRAKAZ?

Ответ на этот вопрос приведен на сайте Академии ДНК-генеалогии http://dna-academy.ru/irakaz/, и мы здесь его в значительной степени воспроизводим. Эта база представляет собой список практически всех доступных из открытых источников гаплотипов R1a в 67– и 111-маркерном формате по состоянию на дату выхода версии. Она оформлена в виде электронной таблицы в программе MS Excel, содержит информацию о стране происхождения и, если известно, этнической принадлежности самого раннего из документированных предков участника, отнесение к той или иной ветви гаплогруппы и список подтвержденных снипов (SNP). Персональная информация опущена, поскольку технически невозможно получить согласие на ее публикацию от каждого из участников. Однако для тех, кто предоставил в открытых проектах данные о своих предках и указал места их рождения, такую информацию можно найти на картах по линку выше.

База данных IRAKAZ ориентирована на использования гаплотипов в исследовательских целях, поэтому порядок записи гаплотипов следует определенной классификации. В базе данных предусмотрена также возможность поиска самых близких гаплотипов в 25-, 37-, 67– и 111-маркерном формате, как это описано на указанном сайте. Название IRAKAZ обозначает инициалы составителей базы: Igor Rozhanskii, Anatole Klyosov, Aleksander Zolotarev. Там же приведен список карт гаплогруппы R1a, составляющий часть базы данных IRAKAZ.

<<< Назад
Вперед >>>

Генерация: 6.006. Запросов К БД/Cache: 3 / 1
Вверх Вниз