第5回 2019/5/20

講師：加藤和貴
MAFFT

講義内容

About MAFFT
Multiple sequence alignment methods
Dynamic Programming?
Heuristics (Progressive method, Iterative refinement method, Consistency)
最近の話題
可変スコアリングマトリクス
- Vingron & Waterman (1994), Thompson et al. (1994) → Katoh & Standley (2016)
タンパク質の立体構造を考慮したアラインメントのための計算サービス
- O’Sullivan et al (2004) → Rozewicki et al (2019)
鎖状案内木の有用性
- Barton & Sternberg (1987) → Boyce et al. (2014) ╳ Tan et al. (2015) ╳ Fox et al. (2016) ╳ Yamada et al. (2016)
半自動アラインメント

About MAFFT

What is multiple sequence alignment(MSA)?

多重配列アラインメントは、「複数の配列を比較することで元となっている配列を予測する手法」のこと。

時間の経過とともに各塩基配列は独立に挿入・欠失・置換を受けるため、現在の配列を単純に比較しても元となった配列を推定することは難しい。

そこで、多くの場合「アラインメントをスコアリングし、最高のスコアのアラインメントを選択する」という手法を取る。スコアリングのモデルは様々なものが提案されているが、「(ギャップ開始ペナルティ) > (ギャップ伸長ペナルティ)」や「(ロイシン→イソロイシン) < (システイン→グリシン)」などの生物学的に意味のある（進化系統樹と整合性のある）関係性を入れたスコアが研究されている。

アラインメントという操作は適応範囲がかなり広く、進化系統樹解析、タンパク質やRNNの機能構造・二次構造予測、シークエンス時のコンセンサス配列決定、オーソログ・ホモログ識別などに用いられている。そのため、かなり研究が盛んな分野でもある。

加藤先生はMAFFTというアプリケーションを作成しており、かなり利用されている。

Multiple sequence alignment methods

今回の授業では、MAFFTの中で使われているアルゴリズムのうち、以下の3つの論文の内容をカバーする。

Dynamic Programming?

Pairwise sequence alignment

2本の配列を比較するのがペアワイズアラインメント。

基本的な考え方はDP。"Pairwise alignment score"を最大化するのが目的である。DP matrixを用いて効率的にスコアを最大化し、最後にback-trackする。計算量は DP matrix の面積に比例する。

Multiple sequence alignment

3本以上の時でも一応はできるが、計算量が多い上に厳密解を求めることはかなり難しい…というか厳密的な全ペアの最大化って何？

比較している現在の配列はそれぞれ独立ではなく木構造を取っていたため、\(\mathrm{SP} = \sum\mathrm{Pair\ alignment\ score}\) とするのはあまり使われていない。

主要なアルゴリズムとして、「累進法」と「反復改善法」が挙げられる。

累進法(Progressive Method)

Pairwise alignment を繰り返しながら更新し、最終的なアラインメトを得る手法。（ある子孫グループの各メンバーを別の子孫グループの各メンバーとペアワイズするイメージ。つまり、重み付けされたスコアを用いる。）
高速に計算が可能
"Once a gap, always a gap"

入力配列の間の全通りの比較に基づいて距離行列(Distance matrix)と案内木(Tree)を計算する。この案内木にしたがってまず配列aと配列b、次に配列cと配列d、続いて配列グループcdとc、というような順番でグループ間アラインメントを繰り返す。
ここで、案内木を再構築してもう一度アラインメントを繰り返すと精度が向上する場合がある。

反復改善法(Iterative Algorithm)

累進法などで得られたアラインメントを2つに分割し、それらのアラインメントから再び1つのアラインメントを計算する（ある評価関数の値が上昇したら更新）、ということを繰り返す手法
アラインメント中のエラーを取り除くことが可能
進化的な距離を踏まえるため、系統樹の枝を切断する形でアラインメントを2つに分割する
計算量は多いが、高精度。

FFT(fast Fourier transform)

MAFFTの中心的なアルゴリズムの一つにFFT(fast Fourier transform)がある。これは、フーリエ変換を用いて「相同性が明らかな領域」を高速に識別する手法のことである。

この手法を用いると、確実にマッチングさせるべき領域がわかるので、計算量が大幅に減る。定量的には、\(O(L^2)\) から \(O(L\log L)\) に減ることが知られている。

Embedding

FFTを使う上で、個々の配列を波として捉える必要がある。そこで、アミノ酸や塩基配列をベクトル表現する手法が提案されている。

アミノ酸アミノ酸の特徴を極性と体積で表すことができる。
DNA 「A→i,G→1,C→-1,T→-i」のように複素数を用いることでベクトル表現することができる。

Consistency Criterion

「間違いを訂正する代わりに最初から間違えないようにしよう」という考え方。

通常はAとBのみを比較するが、Library extension という操作を行う。全ペアのアラインメントを計算するということ。

この手法には、「直接比較していない他の配列の情報も含めた配列の比較ができるので間違えにくいだろう」というアイデアが根底にある。単純な累進法よりも（ある評価基準のもとでは）良い結果を返すが、計算量が多くなってしまう。

より数学的に厳密的な手法を撮ったものがMSAProbsとか。これは重みをつけている。

PRANK

従来の累進法のおかしな点を指摘。例えば以下の左の図を考える。

まず、累進法で考えると、以下により合計 -3.5 となる。

"A-T" と "AGT" の間のアラインメントにより、▼(-2)
"A-T/AGT" と "A-T" の間のアラインメントにより、▽(-0.5)
"A-T/AGT/A-T" と "ACT" の間のアラインメントにより、🔴(-1)

しかし、この進化系統樹が正しいとすると、進化の順序を考えると

③で、AT　と ACT　が分岐。2配列のアラインメントは、"A-T/ACT" のようになる。
②で、AT と AGT が分岐する。2配列のアラインメントは、"A-T/AGT" のようになる。

この２つのアラインメントを統合するとき、CとGには共通祖先が無い（置換によってCとGが分岐したのではない）ので同じカラムにCとGをアラインメントするのはおかしい。

そこで、PRANK というメソッドもあるが、PRANK is less prone to "over-alignment（合わせすぎ）"

ゲノム配列解析論Ⅰ 第5回

第5回 2019/5/20

講義内容

About MAFFT

What is multiple sequence alignment(MSA)?