非構造化知識の処理
〜情報検索から電子カルテまで〜
情報検索
情報検索とは、大量のデータ群から目的に合うものを取り出すこと であり、文書、画像、音声、映像など、検索の対象は多岐にわたる。
基本的な流れとしては、
- データベースには、検索対象のデータが蓄積・管理されている。
- 検索対象のデータからメタデータ(索引語)が作成・管理されている。
- 検索の利用者は、ユーザインターフェースを通して検索質問をする。
- 検索アルゴリズムが、検索質問をメタデータに照合し、それに対応するデータをデータベースから選択する。
- 選択されたメタデータに対応する検索対象のデータをユーザインターフェイスを通して利用者に返答する。
となっている。(メタデータを使わない直接検索もありうる。)
検索技術に関しては
- 検索対象データの抽象度
- 直接検索(特に全文検索)
- 関節検索:
- データベースに蓄積されたデータからメタデータを生成して保管する。
- 検索時は、検索質問をメタデータの表現形式に変換する。
- それをメタデータに対して照合、照合結果に紐づいたデータを取得。
- 検索入力の種類
- 単語:キーワードで検索
- 検索言語:システム特有の検索言語を使う。論理和・論理積など。
- 直接入力:例えば画像を入力し、類似した画像を検索する。
- 自然文:人が使う言葉そのもので検索する。後述の自然言語処理が必要。
- 文書:文書そのものを入力し、入力文書と類似する文書を検索する。
などの種類があり、主要なアルゴリズムは
- パターンマッチング
- ブール論理: パターンマッチングの検索に加え、メタデータの属性ごとの絞り込み条件を論理和・論理積などで組み合わせて併用する。
- ベクトル空間モデル: ユーザーからの検索質問やデータベース中の各データを高次元のベクトルで表現し、それらの類似度を元に関係の強さを計算する。
質疑応答システム
自然言語処理
テキストマイニング
電子カルテ
ゲノム配列、ゲノムアノテーションと遺伝子進化
〜ゲノムデータの表現、系統樹、アノテーションまで〜
ゲノム配列データの表現と解析の概要
系統樹
系統樹とは、生物の類縁関係を表現する際に、分類群を樹枝状の線でつなぐ形で示したもの であり、枝分かれは系統の分岐を、枝の長さ・高さは進化の程度や時間経過を表す。
主な作成法としては、
- 近隣結合法(Neighbor-joining method)
- 複数のOTUの近隣を段階的に見いだし、最終的に無根系統樹を得る方法。
- 本法は各OTU間の距離行列を計算し、これを星状系統樹に配置した後、二つのOTUを結合したときにもっとも星状系統樹の枝長の総和を小さくするのに都合のよい系統樹を選択する。
- この操作を段階的に繰り返すことによって最終的な系統樹を得る。
- この方法は段階的クラスター法に属し、他の方法よりもはるかに短い計算時間で系統樹を作成できる利点がある。
- 進化速度を一定と仮定しないため、進化速度が異なる系統であっても、比較的正しく系統樹を作成することが可能である。
- サイトごとに異なる進化速度は結果に反映されない。
- 最大節約法(Maximum parsimony method)
- 塩基配列上に有意な塩基置換の起こった座位を抽出し、これらがもっとも少ない置換回数で説明できる系統関係を選択する方法。
- プリン塩基同士あるいはピリミジン塩基同士などの置換の起こりやすさを反映させることが可能。
- 系統学的に深い位置で分岐したもの同士を含む場合や特定の系統で進化速度が速くなっている場合には同じ座位で起こる多重置換を無視することができず、偏った推測をしてしまう可能性もある。
- 複数得られた系統関係の中からもっとも置換が少ない関係を選び出す目的には有用。
- 最尤法(Maximum likelihood method)
- 塩基置換における何らかのモデルを仮定し、そのモデルに基づいて、対象とする塩基配列が時間経過に伴って先祖配列から子孫配列へ塩基置換する確率を計算し、もっとも尤度(確率)の高い樹形を導く方法。
- 最尤法は網羅的探索法に属する。
- 探索のアルゴリズムやデータによってはきわめて計算時間がかかることがある。
- ベイズ法
- マルコム連鎖モンテカルロ法に基づいて大量の系統樹を作成し、単系統群の出現頻度(事後確率)を求める方法。
- 初期系統樹を攪乱し、得られた系統樹が初期系統樹の置換モデル・樹形・枝の長さから導かれる確率によって受理・棄却されるかを決定し、受理される場合は新たな系統樹に対してこの操作を繰り返す(棄却された場合はもとの系統樹に対して再度この操作を行う)。
- このマルコフ連鎖を繰り返し、定常状態に達した時に単系統群の出現頻度が事後確率に相当する。
- ベイズ法は比較的新しい系統解析法で今後に注目されているが、一方で計算時間がかかることや事後確率が過大評価されるなどの問題がある。