- 講師:角田達彦
講義概要
# | タイトル | 内容 | コマ |
---|---|---|---|
1 | 生命情報表現論イントロダクション | 生命情報の表現法と解析法・推論法の研究開発がなぜ必要か? | 1コマ目 |
2 | 人工知能研究と知識表現 | 関係代数とSQL、述語論理、フレーム、NoSQL、深層学習とその表現 | |
3 | 非構造化知識の処理 | テキストマイニング、電子カルテ、医療情報 | 2コマ目 |
脳と行動の化学的制御 | |||
4 | ゲノム配列、ゲノムアノテーションと遺伝子進化 | ゲノム配列データの表現と解析の概要、系統樹、ゲノムアノテーション | |
GWAS、ゲノム多様性解析、eQTL、polygenic risk score | 3コマ目 | ||
パラログ・オルソログ・インパラログ・次世代シークエンサー技術とデータの扱い | |||
がんゲノム・オミクス・がん免疫の解析 | |||
5 | グループ議論とプレゼンテーション | 「述語論理」を担当。 | 4コマ目 |
6 | 生命科学におけるネットワークデータの表現法と知識抽出 | 相互作用、遺伝子共発現、パスウェイ、システム生物学、分子から細胞へ | 5コマ目 |
7 | データの共有と結合 | 遺伝子機能アノテーション、オントロジー、統合解析 | 6コマ目 |
オープンデータ、オープンアクセス、CCライセンス | |||
8 | グループ議論とプレゼンテーション | 「システムバイオロジーで何ができるか」 | 7コマ目 |
生命情報表現論イントロダクション
〜生命情報の表現法と解析法・推論法の研究開発がなぜ必要か?〜
- 生命現象の裏にある普遍法則を知りたい。(還元論):例)生物物理、分子生物学
- 全体を要素と要素間の関係に 分解 し、各要素を さらに分解する ことを繰り返す。 → 要素と要素間の関係で書き尽くしたい。
- 現象と説明に矛盾があるときは、さらなる要素との関係を探る。
- これまでの多くの論文としての蓄積。
- これまでの知識を再利用したい。
- 推論や予測をしたい。(全体論)
- 要素間の関係を再統合し、全体としての挙動を解明し推論する。
- 因果・時間発展推論。
- 予測を行い、観測と合わない部分から科学的発見につなげる。
- 相互作用を扱う。
- 以上から、記述法と推論方法が必要。
- 計算機にやらせたい。(計算機が推論できる=現象をよく理解した。)
- 計算機による科学的発見への期待。
- しかし、生命現象はとんでもなく複雑である。
- 扱う現象の膨大さ。
- 階層性:分子、細胞、組織、臓器、全身、環境
- 個体差:個人差、集団(人種)差、種差
- 環境による影響:栄養、刺激(煙草、紫外線…)、運動…
- ストキャスティクス(≒確率的):ゆらぎ。進化をドライブする原動力でもある。
- 人間の直感を超えている(ものも扱いたい)。
- 複雑すぎて追いきれない。予想がつかない。
- ただし、根本原理が捉えられれば良い。
- システムバイオロジー(例:鳥から飛行機の原理)
- 計算機で適切なレベルで再現・推論したい(機能・原理vs.複雑な現象、個々の分子・細胞など)
- 情報科学の、データ構造とアルゴリズムの関係
- 適切なデータの表現方法とデータのメモリ上の置き方。
- アルゴリズム:データのアクセス、計算、書き込み
- チューリングマシンから深層ニューラルネット・深層学習まで
まとめ
ゲノム研究の進展により生命科学は仮説駆動型からデータ駆動型の科学に変貌しつつある。このような科学を推進するには、多種多様で複雑なデータや知識を計算機でうまく扱えるようにすることが不可欠である。
〜計算機に推論させるのに必要十分な表現方法は何か?〜
人工知能研究と知識表現
〜関係代数とSQL、述語論理、フレーム、NoSQL、深層学習とその表現〜
いきなり生命現象の表現方法と推論方法を考え始めても、対象が複雑すぎて発散する。そこで、コンピュータサイエンスで開発された種々の知識表現法と推論をおさらいしてみる。
関係代数(関係モデル)とSQL
- 関係データベース(リレーショナルデータベース) において、集合論と一階述語論理に基づいて、関係(リレーション、表、テーブル)として表現されたデータを扱う、コンピュータ科学における 代数的な演算の体系
- 関係代数:和、差、交わり (交差) 、直積、制限 (選択) 、射影、結合、商の8種類が言及されることが多い。(ただし属性名変更や拡張、要約などこの他の演算子も考案されている。)
- 関係論理:関係代数と等価。関係代数で表現された式は、等価な関係論理の式で表現することができる。
- 関係代数の演算子は、閉包性(closure)をもつ。関係において閉包である。つまり次のことがいえる。
- 関係代数は、1つもしくは複数の関係を基にして演算を行う。
- 関係代数で演算を行って返される結果は、必ず関係である。
- 関係代数演算の結果として返された関係を基にして、さらに関係代数で演算することができる。入れ子になった関係代数演算を行うことができる。
- 関係代数を実装した データベース言語 としては、SQLが挙げられる。
述語論理
- 述語論理(predicate logic) とは、数理論理学における記号的形式体系群を指す用語で、一階述語論理、二階述語論理、多ソート論理、無限論理などが含まれる。
- これらの形式体系は命題論理(propositional logic)を拡張したものであり、論理式に含まれる変数を量化できるという特徴を持つ。
- 各アルファベットは命題変数を表す。これらは原子式である。
- 原始命題の真偽しか表すことができない。
- 結合子(または論理演算子)を表す記号は(一般的に) 「\(\lnot, \land, \lor, \rightarrow\)」 のみ。
- 一階述語論理(first-order predicate logic)とは、個体の 量化 のみを許す述語論理(predicate logic)である。
- 全称量化記号(universal quantifier) \(\forall\)や、存在量化記号 (existential quantifier) \(\exist\) を用いることができる。
- オブジェクトの性質(property)や関係(relation)、オブジェクト間の関数(function)を命題として表現できる。
- これにより、命題論理では導くことのできなかった 機械的な推論 が可能になる。
プロダクションシステム
if-then
形式(「条件ー行動」)プロダクションルールを用い、プロダクションルールと外部から与えられた事実を元に、推論・問題解決を行うシステム。- 外部世界や推論によって得られた事実を蓄積する場所をと呼ぶ。
- プロダクションルールを蓄積しておく場所をと呼ぶ。
- 既知の事実とプロダクションルールから推論を行う機構をと呼ぶ。
フレーム
- 人工知能の大家、M.Minskyにより提唱された(1975年)宣言的知識に関する知識表現
- 事柄を表すフレームは以下の3つの値からなる。
- 事柄の 名称
- 事柄の 属性
- 事柄の 属性の値
- 上位概念の持つ属性は、例外を指定しない限り、下位概念に継承される。
NoSQL
- 膨大、速い、多様というビッグデータに対応するために考え出された技術。
- 定義は明確化されていない。
- 様々なデータモデルがある
- キーバリュー型:
- キーと値の組み合わせ、それだけからなる。
- テーブルとか関係性とか面倒なものは定義しない。
- データが増えると縦に追加される。
- カラム指向型
- キーバリュー型に横方向のデータ追加も許す。
- ドキュメント指向型
- ドキュメント単位でデータを管理する。
- グラフ型
- データ間の関係も管理できる。
- ノード、リレーションシップ、プロパティ
- ややこしい関係による検索もできる。
- キーバリュー型:
- 様々なデータモデルがある
深層学習とその表現
- 深層方向
- 2層はパーセプトロン
- 3層以上はニューラルネットワーク
- 視神経を参考にした
- 各層から次の層へのコネクション
- 特徴抽出
- ローカルなコネクション:階層構造表現とローカルなパタンの表現
- DeepInsightの紹介:Issue.3: DeepInsightにまとめてある。