3S
  • Portfolio Top
  • Categories
  • Tags
  • Archives

分子進化学 第4回

第4回 2019/5/22

  • 講師:斎藤 成也
  • 参考書:Introduction to Evolutionary Genomics Second Edition

16.2 Nucleotide substitution

このように簡単な遺伝子置換の場合、2つの塩基配列を比べるだけで元の配列を推測することができる。 しかし、遺伝子の置換は積み重なっており、以下のように複雑になっていることが青おい。

One-Parameter Model

非常に簡単なモデルの場合、以下のように塩基が置換する確率(速度)を1つのパラメータ \(\alpha\) のみで記述する。

ここで、祖先の塩基配列を \(N_{anc}\) 子孫の塩基配列を \(N_{des}\) とし、時間 \(t\) におけるこれらの塩基配列の異なっている遺伝子座の割合を \(p_t\) 等しい遺伝子座の割合を \(q_t\) と定義する。(\(\forall t\in[0,T], p_t+q_t=1\))

変異確率(速度)がどれも \(\alpha\) で等しいので、それぞれの変異確率は以下のようになる。(※\(N_{anc}\) は不変であり、\(N_{des}\) のみに変異が起こる。)

\(N_{anc}\) t step t+1 step probability
A A(q) A(q) 1-\(\alpha\)
A A(q) C,G,T(p) 3\(\alpha\)
A G(p) G(p) 1-3\(\alpha\)
A G(p) A(q) \(\alpha\)
A G(p) C,T(p) 2\(\alpha\)

したがって、以下の漸化式が導かれる。

$$ \begin{aligned} p_{t+1} &= 3\alpha q_t + (1-\alpha)p_t & (16.12a)\\ q_{t+1} &= (1-3\alpha) q_t + \alpha p_t & (16.12b) \end{aligned} $$

ここで、\(p_t+q_t=1\) なので、上記の式は以下の式に書き換えることができる。

$$ \begin{aligned} q_{t+1} &= (1-3\alpha)q_t + \alpha(1-q_t)\\ &= \alpha + (1-4\alpha)q_t & (16.13) \end{aligned} $$

この式を整理して、

$$q_{t+1}-q_{t}=\alpha\left(1-4 q_{t}\right)\qquad (16.14)$$

ここで、時間ステップの幅を限りなく小さくすれば、\(q_{t+1}-q_t\) は \(dq/dt\) とみなすことが出来るので、以下のように書くことができる。

$$\mathrm{d} q / \mathrm{d} t=\alpha-4 \alpha q \qquad (16.15)$$

この式を、初期条件 \(t=0\) で \(q=1\) で解くと、以下のようになる。

$$q=\frac{1}{4}+\frac{3}{4}\exp \left[-4 \alpha t\right] \qquad (16.16)$$

この式を解釈すると、最初 \(t=0\) では \(N_{amc}=N_{des}\) だが、時間が経過するにつれて等しい割合は徐々に減少し、最終的に \(t\rightarrow\infty\) では \(1/4\) に収束する。これは、完全にランダムな2つの配列の等しい割合と同じになっている。

一般に、変異確率は \(\lambda\) と書かれる。今回の場合は全て \(\alpha\) で等しいので、

$$\lambda = 3\alpha\quad (16.17)$$

   1つの祖先から独立に分岐した2つの塩基配列を比べることがよくある。

この場合、2つの塩基配列A,Bはそれぞれ時間 \(T\) の間に独立に変異してきているため、A,Bの間には合計 \(2T\) の時間的隔たりがあると考えることができる。

$$q=\frac{1}{4}+\frac{3}{4} \exp \left[-\frac{8\lambda T}{3}\right]\qquad (16.18)$$

ここで、進化に基づいた遺伝子距離 \(d\) は、予想される塩基の変異数を用いて

$$d=2 \lambda T \qquad (16.19)$$

と表される。これと(16.18)、\(p=1-q\) を用いれば、

$$p=\frac{3}{4}-\frac{3}{4}\exp\left[-\frac{4d}{3}\right]\qquad (16.20)$$

となる。ここで、\(0\leq p\leq 3/4\) が成り立っていることは注目すべきである。  (16.20)の両辺の対数を取り、\(d\) に関して解くと、

$$d=-\frac{3}{4}\ln \left[1-\left(\frac{4p}{3}\right)\right]\qquad (16.21)$$

ここで、配列の総塩基数を \(n\) として、各塩基において確率 \(p\) で変異が起きると仮定すると、\(p\) は二項分布に従う。(と書いてあったのですが、変異が起こる塩基の数 \(r\) は、\(r \sim \mathrm{B}(n, p)\) の二項分布に従う。の方が正しい書き方だと感じました。)

すると、\(d\) の標準誤差 \(SE[d]\) は、

$$\mathrm{SE}[d]=[3 /(3-4 p)] \sqrt{ |}[p(1-p) / n]\qquad (16.22)$$

となる。(この部分の計算がよくわからなかったのですが、「厳密ではない」と一蹴されてしまいました。)

同様にして、\(p\) の標準誤差 \(SE[p]\) は、

$$\operatorname{SE}[p]=\sqrt{[ } p(1-p) / n ]\qquad (16.23)$$

ここで、\(p=0.01\) などの非常に小さな値の時、以下の式と(16.21) から、\(d\) はほとんど \(p\) と等しくなるので、\(p\) は \(d\) をよく近似する値となる。

$$\ln [1-(4 p / 3)] \sim-(4 p / 3)\qquad (16.24)$$

NA: Not Applicant

Two-Parameter Model

プリンとピリミジンの変異確率に差がある(transition > transversion)ことを踏まえた、2つのパラメータを用いたモデルも提唱されている。

Other Model

以下のように、様々なモデルが提唱されている。関係性をまとめるとこんな感じ。それぞれはモデルの名前。パラメータの置き方色々やってるだけだし、そんなにすごいことやってる気もしない。時間依存のパラメータとか導入しないのかなあというお気持ち。

まあ、今はNGSあるしね。

16.3 Synonymous and nonsynonymous substitution

ここまでは1つ1つの塩基に着目していたが、例えばコドンの3番目に変異が入っても同義置換である可能性が高く、アミノ酸配列には関与しない。アミノ酸に着目し、同義置換・非同義置換を踏まえて考えることにする。

16.4 Amino acid substitution

アミノ酸は20種類あり、4種類の塩基配列に比べて複雑。ここでは、ポアソン分布を導入して考える。アミノ酸が20種類あると、パラレルな変化はほとんどない。そのため、微分方程式を用いず、ポアソン分布でモデル化することができる。

$$\begin{aligned} \mathrm{Prob}(r) &= e^{-\lambda r}(\lambda t)^r/r! &(16.63)\\ d &= 2\lambda t &(16.64) \end{aligned}$$

  • « 細胞分子生物学Ⅰ 第6回
  • ゲノム生物学 第5回 »
hidden
Table of Contents
Published
May 22, 2019
Last Updated
May 22, 2019
Category
分子進化学
Tags
  • 3S 95
  • 分子進化学 13
Contact
Other contents
  • Home
  • Blog
  • Front-End
  • Kerasy
  • Python-Charmers
  • Translation-Gummy
    • 3S - Shuto's Notes
    • MIT
    • Powered by Pelican. Theme: Elegant