第6回 2019/6/12
Chapter 14 Omic Worlds and their Databases
- 14.1 Omic Worlds
- 14.1.1 Genome Databases
- 14.1.2 Transcriptomes and Their Databases
- 14.1.3 Proteome and Protein Databases
- 14.1.4 Metabolomes and Metabolite Databases
- 14.1.5 Phenomes and Ecomes
- 14.2 Other Databases
- 14.2.1 INSDC Databases
- 14.2.2 Literature Databases
- 14.2.3 Evolution-Related Databases
- 14.3 Historical Perspectives on Biodatabase Developments
14.1 Omic Worlds
14.1.1 Genome Databases
進化ゲノミクスにおいて最も重要なデータベースは、ゲノムの塩基配列のデータベースである。世界には以下の2つの包括的なデータベースが存在する。
また、包括的なゲノム塩基配列データベースの他に、あるグループに限ったデータベースも存在し、以下のようなものがある。
Organism group | Genome database |
---|---|
Prokaryotes | MBGD |
Plants | Phytozome |
Plants | PlantGDB |
Plants | PGDB |
Fungi | MycoCosm |
Fungi | FungiDB |
14.1.2 Genome Databases
DNAから転写された転写産物であるRNAのデータベース(例:Eureexpress atlas)も存在する。
mRNA の発現状況を把握する、いわゆる遺伝子発現プロファイリングのための手法として使われている手法はSerial Analysis of Gene Expression(SAGE)で、この手法は以下のステップに分かれている。
- 腫瘍などの試料から mRNA を単離する。
- 単離した mRNA の特定の位置から十~数十塩基対の配列(SAGEタグ)を分離する。
- SAGEタグ連結してある程度の長さの配列(コンカテマー)を作成する。
- コンカテマーをベクターに挿入し、バクテリアに導入してクローニングする。
- DNAシークエンシングを行って配列を決定する。
- 読まれた配列からそれぞれのSAGEタグを計数し、データを分析して発現状況を調べる。
しかし、塩基配列のシークエンスが安くなったこともあり、現在ではDNAマイクロアレイ(DNA microarray, DNA chip)によって直接、数万から数十万の遺伝子発現を一度に調べる手法がとられている。
DNAマイクロアレイでは、数万から数十万に区切られたスライドガラス、またはシリコン基盤上にDNAの部分配列を高密度に配置し固定したものである。
あらかじめ塩基配列の明らかな1本鎖のDNAを多種、基板上に配置しておき、これに検体(メッセンジャーRNA(mRNA)を逆転写酵素で相補的DNA(cDNA)に変換したもの)を反応(ハイブリダイゼーション)させれば、検体のDNA配列と相補的な塩基配列の部分にのみ検体のDNA鎖が結合する。
したがって、結合位置を蛍光や電流によって検出すれば、網羅的に検体に含まれるDNA配列を知る事が出来る。検体の塩基配列が予測できる場合には、効率的にその配列が特定できる。
14.1.3 Proteome and Protein Databases
トランスクリプトーム解析によってmRNAの発現量に関する情報は得られるが、実際にそれらがタンパク質に翻訳されているかはわからない。したがって、タンパク質の解析をすることが必要である。
タンパク質解析の初期は「Two-dimensional protein electrophoresis, developed by O’Farrell」が広く使われていたが、現在では「matrix-associated laser desorption/ionization (MALDI) coupled with mass spectrometer」が広く使われている。
タンパク質に関するデータベースには長い歴史があり、色々な派生系がある。 最も代表的なのはUNIPROTで、以下のようなアミノ酸の配列データが格納されている。
タンパク質解析の別視点における重要な手法は3次元立体構造解析で、登録データ数はUNIPROTと比べるとはるかに少ないが、Protein Data Bank(PDB)には3次元立体構造に特化したデータが格納されている。
UNIPROT | PDB |
---|---|
他の重要なタンパク質関連のデータベースはドメインごとのもので、PFAMやInterProなどがある。
タンパク質のデータは急激に増えているため、現在はPRIDE ArchiveやPeptide Atlasなど、いくつかのデータベースが存在する。
14.1.4 Metabolomes and Metabolite Databases
DNA,RNA,タンパク質の遺伝情報の流れはセントラルドグマと呼ばれ非常に重要な役割を果たすが、細胞を構成する物質にはさらに糖、有機酸、アミノ酸など多くの低分子が存在し、その種類は数千種に及ぶ。これらの物質の多くは、酵素などの代謝活動によって作り出された代謝物質(Metabolite)である。
現在では、細胞の働きを包括的に理解しようとするとき、DNA 配列の網羅的解析(ゲノム解析)やタンパク質の網羅的解析(プロテオーム解析)に加えて、代謝物質の網羅的解析(メタボローム解析)が重要であると言われている。
これは、生命のロバストネスにより、マイクロアレイ解析で変化が観察されても、表現型に最も近いメタボローム解析をしてみると変化が見られないこともあるからである。
14.1.5 Phenomes and Ecomes
遺伝学の主な目的の1つは、遺伝子型と表現型を関連付けることである。
表現型は人の目による認識と深く結びついているが、現在ではX線またはNMR CTスキャニングを用いたイメージングによる広大な形態学的特徴の自動収集が行われることもある。
14.2 Other Databases
他にも進化学において重要なデータベースは存在する。
名前 | 説明 |
---|---|
Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway databases | 人手によって描かれた代謝産物の経路。 |
Gene Ontology Consortium Webpage.) | 遺伝子機能の説明 |
また、人に特化した表現型のデータセットはいくつか存在する。
名前 | 説明 |
---|---|
UK BioBank | DNAサンプルとヒト表現型データ |
Matrix of Comparative Anthropogeny(MOCA) | ヒトと進化的に近い動物(チンパンジー、ボノボ、ゴリラ、オランウータン、などの「類人猿」)の情報 |
14.2.1 INSDC Databases
地球上には膨大な数の生物がおり、それらのほとんどはシークエンスされていない。したがって、人類の間でデータを共有し、同じフォーマットに整えることは極めて重要である。そこで、以下の3つの機関が連携してInternational Nucleotide Sequence Database Collaboration (INSDC)を形成した。
名前 | 機関 |
---|---|
GenBank | National Center for Biotechnology Information (NCBI) in USA |
European Nucleotide Archive (ENA) | European Bioinformatics Institute (EBI) |
DNA Data Bank of Japan (DDBJ) | National Institute of Genetics (NIG) |
14.2.2 Literature Databases
名前 | 機関 | 説明 |
---|---|---|
PubMed | NCBI | 自由にアクセスできるが、名前の通り医療や動物向けの論文が多い。 |
Google Scholar | 自由にアクセスでき、ジャーナルだけでなく書籍や論文など、様々なジャンルをカバーしている。 | |
Science Citation Index of Thomson Reuters/ Scopus of Elsevier | 利用料が膨大であり、一部の研究機関のみが利用している。 |
14.2.3 Evolution-Related Databases
種内のDNA多型は重要な進化的現象であり、特にヒトに関して広く研究されている。そのため、データベースも用意されている。
名前 | 説明 |
---|---|
MITOMAP | 人手によって精選されたヒトミトコンドリアDNAに関する公開済みおよび未公開データのデータベース |
dbSNP | SNPsの包括的なデータベースから始まったが、現在はマイクロサテライトや小規模の挿入や欠失のデータも含まれている。 |
Tree of Life | 系統樹のデータベース |
NCBI Taxonomy | 分類学のデータベース。ネアンデルタール人とデニソヴァン人がホモ・サピエンスとして分類されている。 |
TimeTree | いつ種が分岐したか、という時間データを出版された研究成果をアセンブルすることで推測しているデータベース |
14.3 Historical Perspectives on Biodatabase Developments
1950年代にデジタルコンピュータが非軍用データベースに使用されるようになる前は、紙でデータを集めていた、みたいな歴史の話。
Chapter 15 Homology Search and Multiple Alignment
ヌクレオチドおよびアミノ酸配列の進化的相同性を発見する方法(ホモロージーサーチ)と、それらを分析する方法(ペアワイズアラインメント・マルチプルアラインメント・ゲノムワイドシーケンス)>について見ていく。
- 15.1 What Is Homology?
- 15.2 Homology Search
- 15.3 Pairwise Alignment
- 15.4 Multiple Alignment
- 15.5 Genomewide Homology Viewers
- 15.6 Historical Perspectives on CLUSTAL Series Developments
15.1 What Is Homology?
"Homology" という言葉は、 "analogy" と対照的な意味として、イギリスの解剖学者であるRichard Owenによって提案されたが、現在では「ある形態や遺伝子が共通の祖先に由来すること」を指している。
比較している配列が共通の祖先に由来しない場合、それらの配列は独立に進化してきたことを意味する。しかし、シークエンスによって得られた配列を比較するとかなりの相同性を持っていることから、確率論的に独立に進化してきたとは結論づけにくい。
15.2 Homology Search
ホモロジーサーチとは、「異なる分子間のアミノ酸配列やヌクレオチド配列の類似性に基づいて比較を行うこと」であり、「クエリシーケンス」と相同配列をデータベースから検索することがよく行われる。BLASTが最も有名であり、広く使われている。
15.3 Pairwise Alignment
ホモロジーサーチの理論的な基礎は、ペアワイズアラインメントである。ペアワイズアラインメントでは、生物学的により確からしい結果をもたらすようにスコア行列をモデル化し、動的計画法を用いて解くことが行われる。
15.4 Multiple Alignment
3つ以上の配列を比較したいことはよくあるが、単純にペアワイズアラインメントを繰り返すだけでは組合せ爆発が起きてしまう。そこで、MAFFTなど、様々なアルゴリズムが考えられ、ソフトウェア化されている。
なお、それらはRecent Evolutions of Multiple Sequence Alignment Algorithmsの論文にまとめられている。
15.5 Genomewide Homology Viewers
ホモロジーサーチの結果を可視化するツールはいくつかあるが、以下の2つが広く使われている。どちらも、基本的には片方の配列をデータベースとし、もう片方の配列を自動的に細切れにしてクエリとする。
|PipMaker|VISTA| |局所的整列の集合体として全体の相似度を表現する方法であり、相同性の程度が直感的に理解しやすく、逆位や重複などがある場合にも使いやすい。|固定した塩基長のウインドウを配列全体にずらして当てはめていった時の各所のスコアを表示する方法であり、指定したウインドウサイズに依存して結果が変化する。| |||
15.6 Historical Perspectives on CLUSTAL Series Developments
CLUSTALは広く使われているマルチプルアラインメントのプログラムで、以下の3ステップのアルゴリズムからなる。
- 1対1の整列(ペアワイズアラインメント)を行う 1対1の整列を総当たりで行い、配列一致度の行列を作成する。
- 配列一致度に基づいて樹形図(Guide Tree)を得る 配列一致度を距離尺度に用いて階層型クラスタリングを行う。この際のアルゴリズムは近隣結合法(または非加重結合法)が用いられている。
- 樹形図に沿って配列を追加しながら整列を行う 最も一致度の高い配列ペアからはじめて、樹形図に沿って1つずつ配列を追加しながら整列させていくことで効率的に多重整列を得る。