第6回 2019/6/12

講師：斎藤成也
参考書：Introduction to Evolutionary Genomics Second Edition

Chapter 14 Omic Worlds and their Databases

14.1 Omic Worlds
14.1.1 Genome Databases
14.1.2 Transcriptomes and Their Databases
14.1.3 Proteome and Protein Databases
14.1.4 Metabolomes and Metabolite Databases
14.1.5 Phenomes and Ecomes
14.2 Other Databases
14.2.1 INSDC Databases
14.2.2 Literature Databases
14.2.3 Evolution-Related Databases
14.3 Historical Perspectives on Biodatabase Developments

14.1 Omic Worlds

14.1.1 Genome Databases

進化ゲノミクスにおいて最も重要なデータベースは、ゲノムの塩基配列のデータベースである。世界には以下の2つの包括的なデータベースが存在する。

また、包括的なゲノム塩基配列データベースの他に、あるグループに限ったデータベースも存在し、以下のようなものがある。

Organism group	Genome database
Prokaryotes	MBGD
Plants	Phytozome
Plants	PlantGDB
Plants	PGDB
Fungi	MycoCosm
Fungi	FungiDB

14.1.2 Genome Databases

DNAから転写された転写産物であるRNAのデータベース（例:Eureexpress atlas）も存在する。

mRNA の発現状況を把握する、いわゆる遺伝子発現プロファイリングのための手法として使われている手法はSerial Analysis of Gene Expression(SAGE)で、この手法は以下のステップに分かれている。

腫瘍などの試料から mRNA を単離する。
単離した mRNA の特定の位置から十～数十塩基対の配列（SAGEタグ）を分離する。
SAGEタグ連結してある程度の長さの配列（コンカテマー）を作成する。
コンカテマーをベクターに挿入し、バクテリアに導入してクローニングする。
DNAシークエンシングを行って配列を決定する。
読まれた配列からそれぞれのSAGEタグを計数し、データを分析して発現状況を調べる。

しかし、塩基配列のシークエンスが安くなったこともあり、現在ではDNAマイクロアレイ(DNA microarray, DNA chip)によって直接、数万から数十万の遺伝子発現を一度に調べる手法がとられている。

DNAマイクロアレイでは、数万から数十万に区切られたスライドガラス、またはシリコン基盤上にDNAの部分配列を高密度に配置し固定したものである。

あらかじめ塩基配列の明らかな1本鎖のDNAを多種、基板上に配置しておき、これに検体（メッセンジャーRNA（mRNA）を逆転写酵素で相補的DNA(cDNA)に変換したもの）を反応（ハイブリダイゼーション）させれば、検体のDNA配列と相補的な塩基配列の部分にのみ検体のDNA鎖が結合する。

したがって、結合位置を蛍光や電流によって検出すれば、網羅的に検体に含まれるDNA配列を知る事が出来る。検体の塩基配列が予測できる場合には、効率的にその配列が特定できる。

14.1.3 Proteome and Protein Databases

トランスクリプトーム解析によってmRNAの発現量に関する情報は得られるが、実際にそれらがタンパク質に翻訳されているかはわからない。したがって、タンパク質の解析をすることが必要である。

タンパク質解析の初期は「Two-dimensional protein electrophoresis, developed by O’Farrell」が広く使われていたが、現在では「matrix-associated laser desorption/ionization (MALDI) coupled with mass spectrometer」が広く使われている。

タンパク質に関するデータベースには長い歴史があり、色々な派生系がある。最も代表的なのはUNIPROTで、以下のようなアミノ酸の配列データが格納されている。

タンパク質解析の別視点における重要な手法は3次元立体構造解析で、登録データ数はUNIPROTと比べるとはるかに少ないが、Protein Data Bank(PDB)には3次元立体構造に特化したデータが格納されている。

UNIPROT	PDB

他の重要なタンパク質関連のデータベースはドメインごとのもので、PFAMやInterProなどがある。

タンパク質のデータは急激に増えているため、現在はPRIDE ArchiveやPeptide Atlasなど、いくつかのデータベースが存在する。

14.1.4 Metabolomes and Metabolite Databases

DNA,RNA,タンパク質の遺伝情報の流れはセントラルドグマと呼ばれ非常に重要な役割を果たすが、細胞を構成する物質にはさらに糖、有機酸、アミノ酸など多くの低分子が存在し、その種類は数千種に及ぶ。これらの物質の多くは、酵素などの代謝活動によって作り出された代謝物質(Metabolite)である。

現在では、細胞の働きを包括的に理解しようとするとき、DNA 配列の網羅的解析（ゲノム解析）やタンパク質の網羅的解析（プロテオーム解析）に加えて、代謝物質の網羅的解析（メタボローム解析）が重要であると言われている。

これは、生命のロバストネスにより、マイクロアレイ解析で変化が観察されても、表現型に最も近いメタボローム解析をしてみると変化が見られないこともあるからである。

14.1.5 Phenomes and Ecomes

遺伝学の主な目的の1つは、遺伝子型と表現型を関連付けることである。

表現型は人の目による認識と深く結びついているが、現在ではX線またはNMR CTスキャニングを用いたイメージングによる広大な形態学的特徴の自動収集が行われることもある。

14.2 Other Databases

他にも進化学において重要なデータベースは存在する。

名前	説明
Kyoto Encyclopedia of Genes and Genomes (KEGG) pathway databases	人手によって描かれた代謝産物の経路。
Gene Ontology Consortium Webpage.)	遺伝子機能の説明

また、人に特化した表現型のデータセットはいくつか存在する。

名前	説明
UK BioBank	DNAサンプルとヒト表現型データ
Matrix of Comparative Anthropogeny(MOCA)	ヒトと進化的に近い動物（チンパンジー、ボノボ、ゴリラ、オランウータン、などの「類人猿」）の情報

14.2.1 INSDC Databases

地球上には膨大な数の生物がおり、それらのほとんどはシークエンスされていない。したがって、人類の間でデータを共有し、同じフォーマットに整えることは極めて重要である。そこで、以下の3つの機関が連携してInternational Nucleotide Sequence Database Collaboration (INSDC)を形成した。

名前	機関
GenBank	National Center for Biotechnology Information (NCBI) in USA
European Nucleotide Archive (ENA)	European Bioinformatics Institute (EBI)
DNA Data Bank of Japan (DDBJ)	National Institute of Genetics (NIG)

14.2.2 Literature Databases

名前	機関	説明
PubMed	NCBI	自由にアクセスできるが、名前の通り医療や動物向けの論文が多い。
Google Scholar	Google	自由にアクセスでき、ジャーナルだけでなく書籍や論文など、様々なジャンルをカバーしている。
Science Citation Index of Thomson Reuters/ Scopus of Elsevier		利用料が膨大であり、一部の研究機関のみが利用している。

14.2.3 Evolution-Related Databases

種内のDNA多型は重要な進化的現象であり、特にヒトに関して広く研究されている。そのため、データベースも用意されている。

名前	説明
MITOMAP	人手によって精選されたヒトミトコンドリアDNAに関する公開済みおよび未公開データのデータベース
dbSNP	SNPsの包括的なデータベースから始まったが、現在はマイクロサテライトや小規模の挿入や欠失のデータも含まれている。
Tree of Life	系統樹のデータベース
NCBI Taxonomy	分類学のデータベース。ネアンデルタール人とデニソヴァン人がホモ・サピエンスとして分類されている。
TimeTree	いつ種が分岐したか、という時間データを出版された研究成果をアセンブルすることで推測しているデータベース

14.3 Historical Perspectives on Biodatabase Developments

1950年代にデジタルコンピュータが非軍用データベースに使用されるようになる前は、紙でデータを集めていた、みたいな歴史の話。

Chapter 15 Homology Search and Multiple Alignment

ヌクレオチドおよびアミノ酸配列の進化的相同性を発見する方法（ホモロージーサーチ）と、それらを分析する方法（ペアワイズアラインメント・マルチプルアラインメント・ゲノムワイドシーケンス）について見ていく。

15.1 What Is Homology?

15.2 Homology Search

15.3 Pairwise Alignment

15.4 Multiple Alignment

15.5 Genomewide Homology Viewers

15.6 Historical Perspectives on CLUSTAL Series Developments

15.1 What Is Homology?

"Homology" という言葉は、 "analogy" と対照的な意味として、イギリスの解剖学者であるRichard Owenによって提案されたが、現在では「ある形態や遺伝子が共通の祖先に由来すること」を指している。

比較している配列が共通の祖先に由来しない場合、それらの配列は独立に進化してきたことを意味する。しかし、シークエンスによって得られた配列を比較するとかなりの相同性を持っていることから、確率論的に独立に進化してきたとは結論づけにくい。

15.2 Homology Search

ホモロジーサーチとは、「異なる分子間のアミノ酸配列やヌクレオチド配列の類似性に基づいて比較を行うこと」であり、「クエリシーケンス」と相同配列をデータベースから検索することがよく行われる。BLASTが最も有名であり、広く使われている。

15.3 Pairwise Alignment

ホモロジーサーチの理論的な基礎は、ペアワイズアラインメントである。ペアワイズアラインメントでは、生物学的により確からしい結果をもたらすようにスコア行列をモデル化し、動的計画法を用いて解くことが行われる。

15.4 Multiple Alignment

3つ以上の配列を比較したいことはよくあるが、単純にペアワイズアラインメントを繰り返すだけでは組合せ爆発が起きてしまう。そこで、MAFFTなど、様々なアルゴリズムが考えられ、ソフトウェア化されている。

なお、それらはRecent Evolutions of Multiple Sequence Alignment Algorithmsの論文にまとめられている。

15.5 Genomewide Homology Viewers

ホモロジーサーチの結果を可視化するツールはいくつかあるが、以下の2つが広く使われている。どちらも、基本的には片方の配列をデータベースとし、もう片方の配列を自動的に細切れにしてクエリとする。

|PipMaker|VISTA| |局所的整列の集合体として全体の相似度を表現する方法であり、相同性の程度が直感的に理解しやすく、逆位や重複などがある場合にも使いやすい。|固定した塩基長のウインドウを配列全体にずらして当てはめていった時の各所のスコアを表示する方法であり、指定したウインドウサイズに依存して結果が変化する。| |||

15.6 Historical Perspectives on CLUSTAL Series Developments

CLUSTALは広く使われているマルチプルアラインメントのプログラムで、以下の3ステップのアルゴリズムからなる。

1対1の整列（ペアワイズアラインメント）を行う 1対1の整列を総当たりで行い、配列一致度の行列を作成する。

配列一致度に基づいて樹形図(Guide Tree)を得る配列一致度を距離尺度に用いて階層型クラスタリングを行う。この際のアルゴリズムは近隣結合法（または非加重結合法）が用いられている。

樹形図に沿って配列を追加しながら整列を行う最も一致度の高い配列ペアからはじめて、樹形図に沿って1つずつ配列を追加しながら整列させていくことで効率的に多重整列を得る。

« 細胞分子生物学Ⅰ 第9回

ゲノム配列解析論Ⅱ 第2回 »

分子進化学第6回

第6回 2019/6/12

Chapter 14 Omic Worlds and their Databases

14.1 Omic Worlds

14.1.1 Genome Databases

14.1.2 Genome Databases

14.1.3 Proteome and Protein Databases

14.1.4 Metabolomes and Metabolite Databases

14.1.5 Phenomes and Ecomes

14.2 Other Databases

14.2.1 INSDC Databases

14.2.2 Literature Databases

14.2.3 Evolution-Related Databases

14.3 Historical Perspectives on Biodatabase Developments

Chapter 15 Homology Search and Multiple Alignment

15.1 What Is Homology?

15.2 Homology Search

15.3 Pairwise Alignment

15.4 Multiple Alignment

15.5 Genomewide Homology Viewers

15.6 Historical Perspectives on CLUSTAL Series Developments

Table of Contents

Published

Last Updated

Category

Tags

Contact

Other contents