第4回 2019/7/1
- 講師:岩切 淳一
Today's plan
- Brief introduction of RNA
- central dogma
- RNA classification (coding/non-coding)
- Basic ideas for estimation of transcript abundance from RNA-seq data
- Calculation of relative abundance (RPKM, TPM)
- Handling multi-mapped reads
- Advanced RNA-seq in recent research
- RNA secondary structure (DMS-MaPseq)
- RNA-protein interaction (PAR-CLIP)
- Expression dynamics (TimeLapse-seq)
Brief introduction of RNA
DNA・RNA・タンパク質の関係
DNA
- DeoxyRiboNucleic Acid(デオキシリボ核酸)の略
- 4種類の塩基が存在(A、C、G、T)
- A-T(H-bond2本)、C-G(H-bond3本)は塩基対を形成
- 塩基対により2本鎖、2重らせん構造を形成
- ゲノム
- ACGTが数百万~数十億個つながった遺伝情報全体
- ヒトでは22本の常染色体、2本の性染色体
- 遺伝子
- ゲノムの中でタンパク質に関する情報が記述された(コード)領域(古)
- タンパク質やRNA等の機能を持つ分子に関する情報がコードされた領域(新)
- ヒトのタンパク質コード遺伝子はゲノム全体(30億塩基)の数%
RNA
- RiboNucleic Acid(リボ核酸)の略
- DNAから転写によって合成される
- 4種類の塩基(A、G、C、U)※DNAではU→T
- A-U・G-U(H-bond2本)、C-G(H-bond3本)、が塩基対を形成
- RNAの種類
- messenger RNA (mRNA)・・・タンパク質に翻訳される中間産物
- Non-coding RNA(ncRNA)・・・タンパク質に翻訳されずに機能するRNA
- Ribosomal RNA(rRNA)・・・翻訳の中心を担う
- transfer RNA (tRNA)・・・翻訳時にアミノ酸を運搬する
- micro RNA(miRNA)・・・mRNAの分解(RNAi)に関わる
- Long non-coding RNA(lncRNA)・・・ヒト等に大量に存在、機能未知
Basic ideas for estimation of transcript abundance from RNA-seq data
Overview of RNA-seq workflow
目的:遺伝子の発現量の解析
上を実現する最も簡単な手法は直接RNAの発現量を見ることだが、それが難しいので、RNAをcDNAに逆転写して、断片化してランダムサンプリングし、発現量を定量化する。
Images | Movie |
---|---|
RNA-seqデータからのリード数取得
各リードがどの遺伝子・転写産物に由来しているかを調べ、遺伝子・転写産物単位でリード数を数える。 - リファレンス配列へのマッピング(今回はこれを説明) - 配列アラインメントを用いて、各リードがリファレンス配列中(ゲノムやトランスクリプトーム)の位置を調べ、リードを数える。 - 利点(特にリファレンス配列にゲノム配列を用いた場合) - 目視によるリード(フラグメント)の確認 - 未知の遺伝子への対応 - k-merカウントに基づく発言量推定 - 各リードがトランスクリプトーム中のどの転写産物に由来するかのみをBruijn Graphを用いて調べる(アラインメントは行わず、位置は特定しない。) - 利点 - 高速・省メモリ(ノートPCで十分解析が可能なレベル) - マッピングベースの手法と同等の精度(既知遺伝子のみ)
正規化:リード数から発現量へ
- 遺伝子由来のリード数 \(\neq\) 遺伝子の発現量
- 目的に応じてリード数を正規化する必要がある。
- サンプル内比較(今回はこちら) 同一実験データ内で、遺伝子AとBの発現量を比較
- サンプル間比較 複数の実験データ間で、遺伝子Aの発現量を比較
長さが長い遺伝子の方が 以下のデータが得られたとする。目的は、absolute abundance(=relative abundance)を求めること。
gene \(i\) | length[kb] \(l_i\) | absolute abundance | relative abundance \(f_i\) | read count(observed) \(c_i\) |
---|---|---|---|---|
1 | 2 | - | - | 3 |
2 | 4 | - | - | 2 |
3 | 4 | - | - | 6 |
この時、一般に以下の関係(遺伝子領域の長さが長いほどリード数が多くなる)が成り立つことが知られている。
この関係を使った正規化の方法は、以下の二種類が存在している。
RPKM(Reads Per Kilobase per Million mapped reads)
総和が一定の値にならないので、最近使われてない。
むしろ何故これが採用されていたのか疑問…。
- \(R P K M_{1}=10^{6} \times \frac{3}{2 \times 11}\)
- \(R P K M_{2}=10^{6} \times \frac{2}{4 \times 11}\)
- \(R P K M_{3}=10^{6} \times \frac{6}{4 \times 11}\)
TPM(Transcripts Per Million)
先ほどとほとんど変わらないが、転写産物の総和を \(10^6\) に揃えているだけ。
Options for handling multi-mapped reads
異なる遺伝子領域に同じ配列(リピート配列)があった場合の対処方法は、いくつか考えられている。
が、上3つはかなり頭が悪い。これらの手法で"Handling"とか言わないで欲しい。というか、一番下もそこまで賢くない。単純に「リピート配列以外の発現量(×リード数)に比例してリピート配列を割り振る」だけ。EMのように繰り返して収束させた方が良いと思う。
- Ignore multi-mapped reads
- Estimate abundances using only uniquely-mapped reads
- Count multi-mapped read as usual
- e.g. 1 read – 2 locations -> 1 count for each location
- Divide a read according to the number of locations
- e.g. 1 read - 2 locations -> 1/2 count for each location
- "Rescue" multi-mapped reads according to estimated abundances
- Estimate abundances using uniquely-mapped reads
- Divide & assign a multi-mapped read proportionally to their abundances estimated in Step1
- Re-estimate abundances using read counts obtained in Step2
- etc…
Advanced RNA-seq in recent research
- 通常のRNA-seq: 遺伝子の発現量の解析
- ここからのRNA-seq: 特定の領域・部分に注目
DMA-MaPseq
論文: DMS-MaPseq for genome-wide or targeted RNA structure probing in vivo.
RNA構造中で塩基対を作っていない領域に特定の塩基置換を導入し、「置換がどこに入っていたか」を調べることで、RNAの構造を実験的に調べる。
硫酸ジメチル(DMS)が対を形成していないアデニンおよびシトシン残基のみと反応することを利用。
PAR-CLIP
RNA上のタンパク質が結合している領域に特定の塩基置換を導入する。
培養液中に4-チオウリジン (4sU)を添加し、これをウリジンの代わりにRNAに取り込ませませると、4sUを含むRNAが長波長紫外線照射によって、蛋白質と強力に架橋しするという性質を利用。
TimeLapse-seq
論文: TimeLapse-seq: adding a temporal dimension to RNA sequencing through nucleoside recoding.
新規転写産物に4sU(特殊なU)を取り込ませると、SequenceされるときにはU(T)がCとして読まれる。
すると、新しく転写された転写産物に4sUを取り込ませているため、マッピングされたリードの中でT→C置換のリード割合が高いものほど転写・分解が活発と言える。