Вы находитесь на странице: 1из 5

The Russian Journal of Genetic Genealogy (Русская версия): Том 1, №2, 2009 год

ISSN: 1920-2997

http://ru.rjgg.org © Все права защищены

Обсуждение статьи С.Каржавина «Математический анализ возможности определения исторического времени жизни основателя генеалогического древа по гаплотипам его мужских потомков», опубликованной в RJGG №1, том 1, 2009

Сергей Каржавин Дмитрий Адамов

RJGG

Автор приносит извинения за следующие замеченные Д.Адамовым опечатки:

Стр. 78. 3-й абзац сверху. Вместо "2 mn1 новых состояний" должно быть "2n1 новых состояний".

Стр. 83. В рисунках 1-4 и 1-5 должно быть p1 = 0.45 и p2 = 0.05 , а не p1 = 0.4 и p2 = 0.1 .

Стр. 87. Второй абзац сверху. Вместо

Стр.96. Графики на рис.2-4 должны иметь следующий вид:

, 12должно быть

, M

90 80 70 60 50 40 30 20 10 0 12 50 100 250 500
90
80
70
60
50
40
30
20
10
0
12
50
100
250
500
1000
Усреднен. относит. RMS смещения (%)

mu = 0,1

mu = 0,5

mu = 1,0

mu = 1,5

mu = 2,0

Объем выборки (N)

Рис. 2-4. Относительное среднеквадратическое отклонение  NМП-оценки среднего количества мутаций с ростом количества гаплотипов N в выборке и при различных его истинных значениях

Стр. 111-112. В формулах (4.1.2) перепутаны местами min и max . Стр. 117. Третий абзац сверху. Вместо "Между субкладами R1b и R1b1…" должно быть "Ме- жду субкладами R1b1 и R1b1c…". Вместо "…у субклада R1b1с…" должно быть "…у субклада

R1b1…".

Принята 18 октября 2009; опубликована 19 декабря 2009 Связаться с автором по email: karzhavin@inbox.ru

152

The Russian Journal of Genetic Genealogy (Русская версия): Том 1, №2, 2009 год

ISSN: 1920-2997

http://ru.rjgg.org © Все права защищены

Ответы на вопросы Д. Адамова

Вопрос 1:

RJGG

На странице 79 Вы ввели параметр , являющийся долей вероятности. Понятно, что вероятности изменения количества повторов на ±2 шага в результате мутации малы по сравнению с одношаговыми (т.е., на ±1 ), но параметр может быть разным для ве- роятностей p и q . С другой стороны, принятое упрощение, по-видимому, слабо влияет на получаемые резуль- таты.

Ответ:

Вы правы, влияет слабо. С другой стороны, удалось построить более сложную модель, включающую в себя и возможность перескока аллели на ±2 в результате мутации, тем более, что разговор про возможность такого перескока периодически поднимается среди специали- стов. Поэтому в случае достоверного обнаружения и измерения таких мутаций теоретическую базу надо уже готовить. Вместе с тем, ведение дополнительного параметра (вероятность p2 ) сразу же ставит вопрос о его калибровке по результатам опытных наблюдений. То есть, каждое усложнение модели требует серьезного обоснования. Пока прямому и достоверному вычислению вероятность му- тации сразу на ±2 не поддалась (таких публикаций не видел), то решено было пока в конкрет- ных расчетах данный параметр (вероятность p2 ) временно исключить. Замечу, что когда дополнительно вводился в алгоритм расчетов параметр p2 , обработка тех же самых реальных наборов гаплотипов показала его крайне малое влияние (кроме для аномально искаженных по форме гистограмм), которым спокойно можно пренебречь, что, в свою очередь, позволяет использовать более простую в вычислительном плане двухпотоковую модель (глава 7).

Вопрос 2:

В главе 7 на стр. 145 есть рис.7-2, на котором приведена зависимость относительного среднеквадратического отклонения МП-оценки количества мутаций от объема выборки. Я про- вел сравнение полученных Вами значений N с приведенной в статье Д. Адамова и А. Клесова А (Определение возраста популяций по STR гаплотипам Y-хромосомы. Вестник РА-ДНК, т.2, №1, январь, 2009) формулой для относительной погрешности определения средних величин му- таций по методу ASD:

величин му- таций по методу ASD: (1) Заранее приношу извинения,

(1)

Заранее приношу извинения, Ваши значения, указанные в таблице 1, определял на глазок из рисунка 7-2.

указанные в таблице 1, определял на глазок из рисунка 7-2. 153

153

The Russian Journal of Genetic Genealogy (Русская версия): Том 1, №2, 2009 год

ISSN: 1920-2997

http://ru.rjgg.org © Все права защищены

RJGG

Из таблицы видно, что имеется очень неплохое соответствие.

Ответ:

Если учесть, что результаты по оценке дисперсии в обсуждаемой статье получены стати- стическим моделированием, да и сам вычислительный метод функции правдоподобия облада- ет погрешностями, связанными с конечными размерами «сетки» параметров, по которой ве- дется поиск оптимума, то уровень совпадения можно считать просто отличным. Таким образом, два различных подхода в данном случае прошли взаимную проверку, что не может не радовать.

Вопрос 3:

Для малых значений ≪1 относительное среднеквадратическое отклонение среднего должно зависеть от оценки среднего числа мутаций и объема выборки N следующим обра- зом:

выборки N следующим обра- зом: (2) Это соотношение в главе 7

(2)

Это соотношение в главе 7 выполняется. А вот результаты по N , полученные во вто- рой главе, мне не понятны (стр. 94, рис. 2-2): для =0.1 относительное среднеквадратиче- ское отклонение в два раза меньше, чем по формуле (2):

раза меньше, чем по формуле (2): Далее, зависимость от    N 

Далее, зависимость от N от , приведенная на рис.2-4, довольно странная: кривая для =0.1 совпадает с кривыми для =1.5 и =2 , а относительные погрешности для =0.5 и

=1 лежат ниже. Мне представляется, что зависимость должна быть иной: выше всех лежит кривая для =0.1 , ниже – для =0.5 , еще ниже – для =1 , ну и так далее. Зависимости с ростом должны асимптотически подходить к самой нижней кривой:

подходить к самой нижней кривой: . (3) Отмечу, что кривые для = 0.1 ,

.

(3)

Отмечу, что кривые для =0.1 , =1.5 и =2 на рис.2-4 лежат как раз на асимптотике (3). Поскольку оба Ваших метода эквивалентны (п. 7.3 статьи), то и результаты по N должны быть в принципе одинаковы. В первом варианте Вашей работы, опубликованной в 4–м номере Вестника Российской Академии ДНК-генеалогии за 2008 год, предлагаемая зависимость кривых от μ выполняется (см. рис.2-4).

Ответ:

По поводу рисунка 2-4 приношу извинения, поскольку действительно в статье графики на рис.2-4 НЕВЕРНЫЕ, а правильные графики даны в первой моей публикации в 4-м номере Вестника РА-ДНК, как Вы справедливо указали. Правильный вид графика мною приведен выше в разделе «Опечатки» (стр.96).

154

The Russian Journal of Genetic Genealogy (Русская версия): Том 1, №2, 2009 год

ISSN: 1920-2997

http://ru.rjgg.org © Все права защищены

RJGG

Также полностью согласен и с тем, что действительно имеет смысл использовать асимпто- тику (3). Это в значительной степени облегчает задачу оценки точности и при этом, как Вы показали в Таблице 1, никаких «неожиданностей» с точки зрения дисперсии оценки не возни- кает. К тому же, приведенная Вами асимптотика позволяет быстро вычислить оценку, причем, встроив ее в компьютерную программу, а не «лазить» вручную по графикам, приведенным в статье.

Вопрос 4:

На стр. 133 Вы даете формулы (6.1.6) для расчета границы доверительного интервала Tmin и Tmax . Наверное, более корректно считать границы по другой формуле, содержащей суммы квадратов погрешностей. Например, для 95% доверительного интервала:

для 95% доверительного интервала: Аналогично для T max . Ответ:

Аналогично для Tmax .

Ответ:

Действительно, предложенные Вами формулы для расчета Tmin и Tmax дают значительно лучшее приближение для границ доверительных интервалов, чем выражения (6.1.6), приве- денные в статье.

Авторские дополнения:

1. В статье приведены довольно громоздкие формулы (4.1.2) для расчета доверительных интервалов оценки параметра биномиального распределения. Как мне было справедливо за- мечено (в дискуссии на rodstvo.ru, правда, по несколько иному поводу) можно пользоваться и значительно более простым асимптотическим выражением:

асимптотическим выражением: (где N - общее количество пар

(где N - общее количество пар «отец-сын»), которое для наших задач вполне приемлемо по точности.

2. Необходимо подробнее объяснить, почему при вычислении функции правдоподобия осуществлен переход от многомерной плотности вероятности к произведению одномерных плотностей, значительно упрощающий вычисления:

где m1 ,

упрощающий вычисления: где m 1 , (2.1.1) ,m N - значения исследуемого

(2.1.1)

,mN - значения исследуемого маркера, полученные в совокупности гаплотипов

финальных предков из общего генеалогического древа. Аналогично в 7-й главе:

древа. Аналогично в 7-й главе: (7.1.6) Переход от многомерной

(7.1.6)

Переход от многомерной плотности к произведению одномерных плотностей (для каждого измерения своя плотность распределения) возможен только для статистически независимых измерений. В данном случае допущение независимости формирования количества повторов в

155

The Russian Journal of Genetic Genealogy (Русская версия): Том 1, №2, 2009 год

ISSN: 1920-2997

http://ru.rjgg.org © Все права защищены

RJGG

одном и том же маркере, но в разных гаплотипах является в определенной степени допущени- ем, поскольку многие подгруппы гаплотипов из исследуемой выборки имеют промежуточных общих предков, и, таким образом, общие прошлые мутации, а, значит, имеется и некая сто- хастическая связь между значениями аллелей в разных гаплотипах.

Сразу подчеркнем, что для функции правдоподобия, построенной для определения време- ни жизни обладателя единственного гаплотипа (соотношения (3.1.3) и (7.2.5)), замена много- мерной плотности на произведение одномерных справедлива, поскольку в качестве измерений берутся значения разных маркеров в гаплотипе, а процесс мутаций в маркерах идет незави- симо в каждом из них.

Так какие же соображения позволяют произвести замену на произведение одномерных плотностей?

Во-первых, некоторую уверенность дает то, что главным параметром при вычислениях яв- ляется среднее количество мутаций, которое, в свою очередь, является матожиданием пуассо- новского потока мутаций. А как известно, выборочное среднее является максимально правдо- подобной оценкой матожидания как для независимых случайных величин, так и для статисти- чески зависимых (М.Дж.Кендалл, А.Стьюарт. «Статистические выводы и связи», М., Наука, 1973, параграфы 29.9-10).

Во-вторых, для проверки корректности примененной процедуры был дополнительно реали- зован другой известный метод оценивания параметров, основанный на поиске минимума кри- терия хи-квадрат (во многих случаях он дает результат по точности не хуже максимально правдоподобного). На том же самом большом объеме реальных данных для субкладов I1a (1970 гаплотипов), J2 (1120 гаплотипов), R1b (7770 гаплотипов), R1b1 (4625 гаплотипов), R1b1c (4050 гаплотипов) была проведена оценка параметров модели для всех 12-ти маркеров в каждом субкладе. Искомые значения параметров показали хорошее совпадение по всем суб- кладам с таковыми, полученными методом максимума правдоподобия. Поскольку метод мини- мума хи-квадрат не нуждается в тех допущениях, которые были использованы в данной ста- тье, то совпадение результатов обоих методов является хорошей гарантией правомерности выражений (2.1.1) и (7.1.6).

Возникает вопрос, а почему в качестве основного не использовано оценивание по методу минимума хи-квадрат? На этот случай можно сослаться на параграф 19.35 (М.Дж.Кендалл и А.Стьюарт «Статистические выводы и связи» М., Наука, 1973), в котором подробно изложены не- которые проблемы использования метода минимума хи-квадрат. От себя добавлю, что в нашем случае часто выборки гаплотипов крайне малы для построения качественных гистограмм, в результате чего они получаются крайне грубыми, что может привести к большим ошибкам в оценивании.

============

Автор выражает огромную признательность Д.Адамову за проделанную работу по незави- симому анализу ряда положений, рассмотренных в статье, а также за ценные замечания, ис- правления и дополнения, которые необходимо учитывать при практическом использовании результатов и аналитических соотношений, полученных в дискутируемой статье.

Каржавин С.П., 17.10.2009 г.

156