第4回 2019/5/22
16.2 Nucleotide substitution
このように簡単な遺伝子置換の場合、2つの塩基配列を比べるだけで元の配列を推測することができる。 しかし、遺伝子の置換は積み重なっており、以下のように複雑になっていることが青おい。
One-Parameter Model
非常に簡単なモデルの場合、以下のように塩基が置換する確率(速度)を1つのパラメータ \(\alpha\) のみで記述する。
ここで、祖先の塩基配列を \(N_{anc}\) 子孫の塩基配列を \(N_{des}\) とし、時間 \(t\) におけるこれらの塩基配列の異なっている遺伝子座の割合を \(p_t\) 等しい遺伝子座の割合を \(q_t\) と定義する。(\(\forall t\in[0,T], p_t+q_t=1\))
変異確率(速度)がどれも \(\alpha\) で等しいので、それぞれの変異確率は以下のようになる。(※\(N_{anc}\) は不変であり、\(N_{des}\) のみに変異が起こる。)
\(N_{anc}\) | t step | t+1 step | probability |
---|---|---|---|
A | A(q) | A(q) | 1-\(\alpha\) |
A | A(q) | C,G,T(p) | 3\(\alpha\) |
A | G(p) | G(p) | 1-3\(\alpha\) |
A | G(p) | A(q) | \(\alpha\) |
A | G(p) | C,T(p) | 2\(\alpha\) |
したがって、以下の漸化式が導かれる。
ここで、\(p_t+q_t=1\) なので、上記の式は以下の式に書き換えることができる。
この式を整理して、
ここで、時間ステップの幅を限りなく小さくすれば、\(q_{t+1}-q_t\) は \(dq/dt\) とみなすことが出来るので、以下のように書くことができる。
この式を、初期条件 \(t=0\) で \(q=1\) で解くと、以下のようになる。
この式を解釈すると、最初 \(t=0\) では \(N_{amc}=N_{des}\) だが、時間が経過するにつれて等しい割合は徐々に減少し、最終的に \(t\rightarrow\infty\) では \(1/4\) に収束する。これは、完全にランダムな2つの配列の等しい割合と同じになっている。
一般に、変異確率は \(\lambda\) と書かれる。今回の場合は全て \(\alpha\) で等しいので、
1つの祖先から独立に分岐した2つの塩基配列を比べることがよくある。
この場合、2つの塩基配列A,Bはそれぞれ時間 \(T\) の間に独立に変異してきているため、A,Bの間には合計 \(2T\) の時間的隔たりがあると考えることができる。
ここで、進化に基づいた遺伝子距離 \(d\) は、予想される塩基の変異数を用いて
と表される。これと(16.18)、\(p=1-q\) を用いれば、
となる。ここで、\(0\leq p\leq 3/4\) が成り立っていることは注目すべきである。 (16.20)の両辺の対数を取り、\(d\) に関して解くと、
ここで、配列の総塩基数を \(n\) として、各塩基において確率 \(p\) で変異が起きると仮定すると、\(p\) は二項分布に従う。(と書いてあったのですが、変異が起こる塩基の数 \(r\) は、\(r \sim \mathrm{B}(n, p)\) の二項分布に従う。の方が正しい書き方だと感じました。)
すると、\(d\) の標準誤差 \(SE[d]\) は、
となる。(この部分の計算がよくわからなかったのですが、「厳密ではない」と一蹴されてしまいました。)
同様にして、\(p\) の標準誤差 \(SE[p]\) は、
ここで、\(p=0.01\) などの非常に小さな値の時、以下の式と(16.21) から、\(d\) はほとんど \(p\) と等しくなるので、\(p\) は \(d\) をよく近似する値となる。
NA: Not Applicant
Two-Parameter Model
プリンとピリミジンの変異確率に差がある(transition > transversion)ことを踏まえた、2つのパラメータを用いたモデルも提唱されている。
Other Model
以下のように、様々なモデルが提唱されている。関係性をまとめるとこんな感じ。それぞれはモデルの名前。パラメータの置き方色々やってるだけだし、そんなにすごいことやってる気もしない。時間依存のパラメータとか導入しないのかなあというお気持ち。
まあ、今はNGSあるしね。
16.3 Synonymous and nonsynonymous substitution
ここまでは1つ1つの塩基に着目していたが、例えばコドンの3番目に変異が入っても同義置換である可能性が高く、アミノ酸配列には関与しない。アミノ酸に着目し、同義置換・非同義置換を踏まえて考えることにする。
16.4 Amino acid substitution
アミノ酸は20種類あり、4種類の塩基配列に比べて複雑。ここでは、ポアソン分布を導入して考える。アミノ酸が20種類あると、パラレルな変化はほとんどない。そのため、微分方程式を用いず、ポアソン分布でモデル化することができる。