第10回 2019/7/10
内容
- 遺伝子系図理論
- 幾何分布と指数分布
- 合祖過程
- サイト頻度スペクトラム
- 組替えと合祖過程
- 中立性の検定
- 同義置換率と非同義置換率
- MacDonald-Kreitman(MK)検定
- 田嶋の検定(Tajima's D)
- Extended haplotype homozygosity(EHH)
遺伝子系図理論
1. 指数分布
幾何分布
同じことを繰り返し行う時、初めて成功するまでの回数が従う分布を幾何分布という。
確率 \(p\) で成功するような施行を繰り返し行い、\(n\) 回目に初めて成功する確率は、
で与えられ、この時平均と分散は以下になる。
平均の導出
平均の導出は面倒なので、幾何分布のもつ無記憶性に基づいて導出する。
成功するまでの平均回数を \(N\) 回とすると、無記憶性を用いれば、以下の等式が成り立つことがわかる。
どういうことかというと、成功するまでの平均回数は、一回前に成功したか失敗したかに関わらず一定なので、成功するまでの回数を考えると、
- 次成功する(確率 \(p\)):この1回で成功
- 次失敗する(確率 \(1-p\)):あとN(=1+N)回で成功
に分割することができる。ゆえに、上の式によって平均回数が \(N=\frac{1}{p}\) と求めることができる。
分散の導出
幾何分布の分散は、計算
指数分布
ある事象が起きるまでの期待時間(平均時間)が \(\sigma\) である時、その事象が起きるまでの時間 \(t\) の確率都度分布 \(f(t)\) は指数分布となる。
2. 合祖過程
遺伝子系図
- \(N\) 人からなる2倍体集団には \(2N\) 個の遺伝子コピーが存在する。
- どの遺伝子コピーも次世代にコピーを残す確率は等しい。
- ある世代の2個の遺伝子コピーが1世代前の同一遺伝子コピーに由来する(1世代前に合祖する)確率は \(1/2N\)
この時、木構造を考えればわかるが、時間を遡っていくと現在の全遺伝子コピーにとって共通の親コピーに必ずたどり着く。
合祖確率
- 集団サイズ \(N\) が一定の2倍体集団を考える。
- 現在を0世代、時間を遡って世代数 \(t\) を考える。(世代は離散的)
- 2個の遺伝子コピーが \(t(\leq)1\) 世代前に初めて合祖する確率を \(C_t\) とおく。
2個の遺伝子コピーが合祖するまでの世代数 \(T_2\)
\(i\) 個の遺伝子コピーのうちの \(2\) 個が合祖して \(i-1\) 個となるまでの世代数 \(T_i\)
同一世代において \(3\) 個以上の遺伝子コピーが合祖することはないと仮定すると、
\(n\) 個の遺伝子コピーが全て合祖するまでの世代数 \(T_{\mathrm{MRCA}}\)
※ MRCA; Most Recent Common Ancestor
したがって、\(n=2N\) ならば \(4N-2\) であり、これは固定に要する期待世代である。
また、「\(2\) 個になるまでの期待世代数 \(2N\)」と「\(2\) 個になってからの期待世代数 \(2N-2\)」はほぼ等しい。
合祖確率の応用
上記の確率を利用して、以下の様々な応用が行われている。
- 各合祖イベントまでの世代時間 \(u\) の計算(組換えを起こさないゲノム領域ex.)mtDNAやY染色体)
- Bayesian coalescent inference
- Bayesian Skyline Plotsによる集団の遷移年代推定
- 全経路の世代数 \(T_{\mathrm{total}}\) の期待値と分散から突然変異の期待値の導出
無限サイトモデル
- 点突然変異 \(\mu\) は極めて小さいとする。(ヒトの場合、\(1.2\times10^{-8}\) per site per generation)
- 同一塩基サイトに点突然変異が2回起こる可能性は低い(ので、ヒトでは観察されるSNPの大部分が2種類のアリルのみ)
- 全ての突然変異はuniqueであると仮定する。
ヘテロ接合度の期待値
2個の遺伝子コピーが1世代遡る過程について考える。 - 2個の遺伝子コピーが合祖する確率は \(1/2N\) - 世代あたりの突然変異率を \(u\) とすると、2個の遺伝子コピーの少なくともどちらか一方で突然変異が起こる確率は \(1-(1-u)^2\fallingdotseq2u\)
ここで、合祖か突然変異のどちらかが起こるまで遡ったとすると、
塩基配列 | ホモ/へテロ | ||
---|---|---|---|
合祖が先に起こる | 同一 |
$$\frac{\frac{1}{2N}}{\frac{1}{2N} + 2u} = \frac{1}{1+4Nu}$$
|
ホモ |
突然変異が先に起こる | 異なる |
$$\frac{\frac{2u}{2N}}{\frac{1}{2N} + 2u} = \frac{4Nu}{1+4Nu}$$
|
ヘテロ |
塩基相違数の期待値
- 世代あたりの突然変異率を \(u\) とすると、ある世代で2本のどちらかで突然変異が起こる確率は \(2u(1-u)\fallingdotseq2u\)(共に起こることはないと仮定)
- 合祖と突然変異の両イベントのうち突然変異が起こる確率は
$$\frac{2u}{\frac{1}{2N} + 2u} = \frac{4Nu}{1+4Nu}=\frac{\theta}{1+\theta}\left(\because\ \theta=4Nu\right)$$
- したがって、合祖までの過程で突然変異が先に \(k\) 回起こる確率は、
$$P(k) = \frac{1}{1+\theta}\left(\frac{\theta}{1+\theta}\right)^k$$
この確率を用いれば、ある集団から無作為に抽出された2本の配列(\(i,j\))間で観察される塩基相違数 \(d_{ij}\) は、(逆に辿った時に)合祖(塩基配列一致)までに何回突然変異が起こったか?で求めることができるので、以下によって求めることができる。
したがって、\(n\) 本の配列をサンプルし、ペアワイズに比較した際の平均塩基相違数(塩基多様度(nucleotide diversity))も求めることができ、\(\mathrm{E}[d] = \theta\)。
ここで、この \(d\) は観察可能なので、\(Nu\) を推定することができる。
分離サイト数(segregationg site)
世代あたりの突然変異率を \(u\) とする。ここで、組換えが起こらなければ、\(n\) 本の配列中に期待される突然変異の個数 \(S\)(分離サイトの期待数)は、
で求められる。この \(S\) は観察可能なので、上の式から \(Nu\) を推定することができる。
Identify by descent (IBD)と固定指数(\(F_t\))
- ある世代を \(t\) 世代目、その1世代前を \(t-1\) 世代目とする。
- \(t\) 世代目に無作為に抽出した2個の遺伝子コピーが同祖的(IBD)である確率を \(F_t\) とする。
したがって、0世代目の \(F_t\) を \(F_0\) とおくと、
有効集団サイズ(\(N_e\))
- 実際は世代毎に集団サイズは変化する。
- \(i\) 世代目の集団サイズを \(N_i\) とする。
$$F_i = 1-(1-F_0)\prod_{i=0}^{t-1}\left(1-\frac{1}{2N_i}\right)$$
- 一方で、以下を満たす \(N_e\) を有効集団サイズとする。
$$\left(1-\frac{1}{2N_e}\right)^t = \prod_{i=0}^{t-1}\left(1-\frac{1}{2N_i}\right)$$つまり、\(t,F_t,F_0\) がわかっている場合、$$F_t = 1 - (1-F_0)\prod_{i=0}^{t-1}\left(1-\frac{1}{2N_i}\right)$$によって集団サイズを求めることができる。
- 集団サイズは十分に大きいので、
$$1 - \frac{t}{2N_e} = 1 - \sum_{i=0}^{t-1}\frac{1}{2N_i}$$と近似することができ、これによって、$$\frac{1}{N_e} = \frac{1}{t}\left(\frac{1}{N_0} + \frac{1}{N_1} + \cdots + \frac{1}{N_{t-1}}\right)$$と計算できる。つまり、有効集団サイズ \(N_e\) は、実際の個体数の調和平均となる。 したがって、たとえ1世代でも集団サイズの急激な減少(ボトルネック)が起こると、有効集団サイズもかなり小さくなることがわかる。
突然変異とヘテロ接合度(\(H_t\))
- ある世代を \(t\) 世代目、その1世代前を \(t-1\) 世代目とする
- \(t\) 世代目に無作為に抽出した2個の遺伝子コピーが異なるアリル(ヘテロ接合)である確率を \(H_t\) とする。
- 世代あたりの突然変異率を \(u\) とし、「突然変異が起きるとそれまでに集団中に存在しなかった新たなアリルが誕生する(復帰突然変異が起こらないよりも厳しい制約)」(無限対立遺伝子モデル)
- 上記の制約より、「異なるアリルに変異が起こった結果同一のアリルになる」ことはありえない。
この漸化式を解くと、
よって、\(H\) は観察可能なので、ヘテロ接合度から \(Nu\) を推定できる。
幾何分布(離散)から指数分布(連続)へ
- ここまでは、離散的な世代モデルを考えてきた。
- \(T\) は2つのコピーが初めて合祖する時間
- 時間 \(t\) の単位を2Nにする
- 確率変数 \(t\) の確率密度関数を \(f(t)\)、累積分布関数を \(F(t)\) とする。
- 単位時間(\(t=1\))あたり合祖する確率を \(c\) とする。
したがって、\(\frac{F'(t)}{1-F(t)} = c\quad (t>0)\)
ここで、左辺を変形すると、\(-\{\ln\left(1-F'(t)\right)\} = c\) となる。この式の両辺を \(t\) で積分し、\(F(0) = 0\) であることを使えば、
ゆえに、1世代あたり合祖が起きる確率は \(1/2N\) であるので、単位時間(\(t=1\))あたり合祖する確率は \(c=1/2N\times2N=1\) となる。よって、
- 時間 \(t\) に初めて合祖する確率は指数分布 \(f(t) = e^{-t}\)
- 時間 \(t\) までに合祖する確率は \(F(t)=1-e^{-t}\)
\(i\) 個の遺伝子コピーのうちの \(2\) 個が合祖して \(i-1\) 個となるまでの世代数 \(T_i\)
※ 同一世代に置いて3個以上の遺伝子コピーが合祖することはないと仮定。
\(n\) 個の遺伝子コピーが全て合祖するまでの世代数 \(T_{\mathrm{MRCA}}\)
※ MRCA; Most Recent Common Ancestor
その他の応用
先ほどと同様に、 - 集団サイズが変化する場合 - 塩基相違数の分布(ポアソン分布に従う) - 分離サイト数
なども計算が可能である。
3. サイト頻度スペクトラム(site frequency spectrum; SFS)
\(\mathrm{E}[S_i^n]\):\(n\) 個の遺伝子コピー中に \(i\) 個の派生アリルが観察されるサイトの期待値
この時、\(\mathrm{E}[S_i^n]\)は \(n\) に依らない!
導出
- \(n\) 個の遺伝子コピーをサンプルした場合に、\(i\) 個の派生アリルを持つサイトの経路(突然変異以降の経路)の端点は当然ながら \(i\) 個。
- \(n+1\) 個の遺伝子コピーをサンプルすることは、先の状態において、\(n\) 個ある端点の1つに2分岐が1つ足されることを意味する。
- この時、もちろん \(i\) 個の派生アリルを持つサイトの経路の端点に2分岐が足されると、\(i+1\) 個の派生アリルを持つことになる。
- サンプル数が \(n\) 個から \(n+1\) 個になるということは、
- \(n\) 個の端点のうちランダムに選んだ1個に長さが \(4N/\left\{(n+1)n\right\}\) の枝を2つ(最後の分岐)足し、
- 残り \(n-1\) 個に長さが \(4N/\left\{(n+1)n\right\}\) の枝を1つ足すこと。
- 上記の足された部分で起こる突然変異は、必ずsingletonになる。
- サンプル数が \(n\) 個から \(n+1\) 個に変わったとしても、\(n\) 個から \(2\) 個になるまでの合祖過程は変わらない。
ここで、\(n\) 個の遺伝子コピーをサンプルした場合に \(i\) 個の派生アリルを持つサイトの期待個数は、\(\mathrm{E}[s_i^n]=\theta/i\quad (i=1,\ldots n)\) であるとすると、\(n+1\) 個の遺伝子コピーをサンプルした場合に \(j\) 個の派生アリルを持つサイトの期待個数が \(\mathrm{E}[s_j^{n+1}] = \theta/j\) で表されることを示す。
Base Case (\(n=2\))
2個の遺伝子コピーをサンプルした場合に合祖するまでの期待時間は \(2N\) である。どちらの経路で突然変異が起きても、派生アリルの個数が \(1\) のサイトとなる。
したがって、\(\mathrm{E}[s_1^2] = 2\times2N\times u = 4Nu = \theta\) より、\(n=2\) の時 \(\mathrm{E}[s_i^n] = \theta/i\) が成り立つ。
Inductive Step (\(n\geq2\))
- \(j=1\) の場合
\(n\) 個のサンプルした系図の端点の1つに、2分岐足して \(n+1\) 個サンプルした系図にすることを考える。
1個の派生アリルを持つ経路の端点の1つに2分岐が足されない確率は \((n-1)/n\) であり、この時1個の派生アリルを持つ経路は維持される。
また、\(n+1\) 個ある各枝の長さは、\(4N/\left\{(n+1)n\right\}\) 増えたことにより1個の派生アリルを持つサイト数が \(4N/\left\{(n+1)n\right\}\times(n+1)\times u = \theta/n\) 増える。
したがって、$$\mathrm{E}[s_1^{n+1}] = \left\{(n-1)/n\right\}\times\theta + \theta/n = \theta$$
- \(j = i(2\leq i\leq n-1)\) の時
\(n\) 個サンプルした系図の端点の1つに、2分岐足して \(n+1\) 個サンプルした系図にすることを考える。
\(i-1\) 個の派生アリルを持つ経路の端点の1つに2分岐が足される確率は \((i-1)/n\) であり、この時 \(i-1\) 個の派生アリルを持っていた経路は \(i\) 個の派生アリルを持つ経路となる。
\(i-1\) 個の派生アリルを持つ経路の端点の1つに2分岐が足されない確率は \((n-i)/n\) であり、この時派生アリルの個数は \(i\) のままである。
したがって、
$$\begin{aligned} \mathrm{E}[s_j^{n+1}] &= (i-1)/n\times\mathrm{E}[s_{i-1}^n] + (n-j)/n\times\mathrm{E}[s_i^n]\\ &= (i-1)/n\times\theta/(i-1) + (n-i)/n \times \theta/i\\ &= \theta/n + (n-i)\theta/(ni) = \theta/i \end{aligned}$$
- \(j=n\) の時
\(n\) 個サンプルした系図の端点の1つに、2分岐足して \(n+1\) 個サンプルした系図にすることを考える。
\(n-1\) 個の派生アリルを持つ経路の端点の1つに2分岐が1つ足される確率は \((n-1)/n\) であり、この時 \(n-1\) 個の派生アリルを持っていた経路は \(n\) 個の派生アリルを持つ経路となる。
したがって、
$$\begin{aligned} \mathrm{E}[s_j^{n+1}] &= (n-1)/n\times\mathrm{E}[s_{n-1}^n]\\ &= (n-1)/n\times\theta/(n-1) = \theta/n \end{aligned}$$
以上の議論から、2つ以上の全ての自然数 \(n\) について \(\mathrm{E}[s_i^n] = \theta/i\) が成り立つ。
4. 組換えと合祖過程
(組換え時に連鎖した)各領域ごとに合祖を考えると、元の配列で隣接していた領域の系図は似通ったものになる。
中立性の検定
1. 同義置換率と非同義置換率
- 塩基座位あたりの同義置換数(同義置換率)\(d_S\)
- 塩基座位あたりの非同義置換数(同義置換率)\(d_N\)
をそれぞれ求めることができる。ここで、ヒトとマウスの比較によって以下がわかった。
- 調べた全ての遺伝子において \(d_S>d_N(d_N/d_S<1)\) →一般に、タンパクコード遺伝子は保守的に進化する。すなわち、非同義変異のほとんどは有害変異である。
- \(d_S\) のばらつきに比較して \(d_N\) のばらつきは大きい →一般的に、同義置換は自然選択上中位であるため、点突然変異率 \(\mu\) と同義置換率 \(d_S\) はほぼ等しい。 遺伝子間の \(d_N/d_S\) の違いは、遺伝子の機能的制約の違いを反映している。
非同義突然変異中の有害変異の割合 \(\alpha\)
- 同義突然変異率 \(\mu_S\) と非同義突然変異率 \(\mu_N\) は、共に点突然変異率 \(\mu\) に等しい。
- 非同義置換の中に有害な変異は含まれず、有利な変異の割合は極めて小さい。すなわち、非同義置換の大部分は中立的な変異である。
よって、\(\alpha\) = 1-d_N/d_S
2. MacDonald-Kreitman(MK)検定
中立性を検定するテストの一種。
中立なら、同義置換率:非同義置換率が種内・種間で一定であろう、という仮説に基づいた検定。「種間」と「種内」における同義置換と非同義置換の差をカイ二乗検定によって検定する。
3. 田嶋の検定(Tajima's D)
集団サイズが一定で中立的な場合(これが帰無仮説)
が成立する。(\(\theta_T = \theta_W =0\))
Tagimaの検定では、
がベータ分布に従う(実際はシミュレーションすべき)ことを利用して中立(\(D=0\))からの逸脱を検定する。
特筆すべきは、\(D\) の正負から、その「逸脱要因」を推定できること。
- \(D<0\) の場合:低頻度アリル(singleton)が多い
- 正の自然選択(方向性選択)の可能性
- 集団サイズの急激な増加の可能性
- \(D>0\) の場合:中程度〜高頻度アリルが多い
- 平行選択(古くに分岐)の可能性
- 集団サイズの急激な減少の可能性
注意点
田嶋の検定では、有意差が検出された場合に、その理由として以下の二つを識別することができない。
もし多数のゲノム領域(理想としては全ゲノム領域)を調べることができれば、ゲノムワイドにDの経験分布を得ることができる。
Dの経験分布は集団サイズ変化を反映するため、それに比べてDの値が大きくずれているのであれば、着目する領域が自然選択の作用を受けたと言える(経験分布なしには議論できない)
合祖シミュレーションでは、集団サイズ一定を仮定しても平均のDは0よりわずかに小さな値をとる。
4. Extended haplotype homozygosity(EHH)
EHHは、具体的な例があった方がわかりやすいと考える。そこで講義中の課題19で実際に問題を解いているので、それに説明を譲る。
なお、集団史が不明なため、REHH(relative EHH; EHHi/EHHj)の理論分布は存在しない。
もし全ゲノム領域を調べることができれば、ターゲットアリルと同じ頻度のアリルのREHHの経験分布を得ることができる。
経験分布に比べてREHHの値がかなり大きければ、着目する領域でpartial selective sweepが起きたと言える。(有意性については、経験分布なしには議論できない。)
なお、当然ながら、既に固定した変異については、調べることができない。