※ かなり導出部分を省略しています。導出は適宜HMMの最尤推定の計算過程を参照してください。
隠れマルコフモデルは、一般に以下の式で表されます。
- \(\mathbf{X} = \{\mathbf{x}_1,\ldots,\mathbf{x}_N\}\):
- \(\mathbf{Z} = \{\mathbf{z}_1,\ldots,\mathbf{z}_N\}\)
- \(\boldsymbol{\theta}=\{\boldsymbol{\pi}, \mathbf{A}, \boldsymbol{\phi}\}\)
※ 一般に放出確率 \(p\left(\mathbf{x}_{n} | \mathbf{z}_{n}, \boldsymbol{\phi}\right)\) は、二値のベクトル \(\mathbf{z}_n\) の \(K\) 個の可能な状態に対応した \(K\) 個の要素を持つベクトルからなる任意の分布
を考えることも可能ですが、今回は下記の離散多項分布を考えます。
Name | Probability | Conditional Distribution |
---|---|---|
initial state | \(\pi_{k} \equiv p\left(z_{1 k}=1\right)\) | \(p\left(\mathbf{z}_{1} \mid \boldsymbol{\pi}\right)=\prod_{k=1}^{K} \pi_{k}^{z_{1 k}}\quad (13.8)\) |
transition probability | \(A_{j k} \equiv p\left(z_{n k}=1\mid z_{n-1, j}=1\right)\) | \(p\left(\mathbf{z}_{n} \mid \mathbf{z}_{n-1}, \mathbf{A}\right)=\prod_{k=1}^{K} \prod_{j=1}^{K} A_{j k}^{z_{n-1, j} z_{n k}}\quad (13.7)\) |
emission probability | \(\phi_{i k}\equiv p\left(x_{n i}=1 \mid z_{n k}=1\right)\) | \(p(\mathbf{x}_n \mid \mathbf{z}_n, \boldsymbol{\phi})=\prod_{i=1}^{D} \prod_{k=1}^{K} \phi_{i k}^{x_{ni} z_{nk}}\quad (13.22)\) |
尤度関数
ここで、データ集合 \(\mathbf{X}\) が観測された際に、上記の同時分布を潜在変数 \(\mathbf{Z}\) について周辺化することで、尤度関数は以下のように記述されます。
しかし、この尤度関数は \(n\) について分解できない(\(\mathbf{z}_n\))ごとに和を取れないので、条件付き独立の性質を活かして尤度関数の対数の期待値を最大化するBaum-Welch algorithm (EM algorithm)を用います。
Baum-Welch (EM)
- パラメータ \(\boldsymbol{\theta}^{\text {old }}\) を用いて \(p\left(\mathbf{Z} | \mathbf{X}, \boldsymbol{\theta}^{\text {old }}\right)\) を最大化する。
- 対数尤度関数の期待値 \(Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old }}\right)\) を求める。
- \(Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\text {old }}\right)\) を最大化するパラメータに更新する。\(\boldsymbol{\theta}\rightarrow\boldsymbol{\theta}^{\text {old }}\)
- 1に戻る。
ここで、表記を簡単にするために、γ、ξを導入します。
なお、潜在変数が離散なので、以下のように記述し直せます。(\(\pi_{k},A_{j k},\phi_{j k}\) と同様。)
これらを用いると、\(Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\mathrm{old}}\right)\) が以下のように書き下せます。(計算過程)
Maximization step
※ 実際の計算の順番からは前後しますが、先にM stepを説明します。
上記の \(Q\left(\boldsymbol{\theta}, \boldsymbol{\theta}^{\mathrm{old}}\right)\) を各パラメータ \(\boldsymbol{\theta}\) に関して最大化するのは(別ブロックに別れているから)簡単で、それぞれ適当なラグランジュ乗数を導入することで、以下のように求まります。(計算過程)
Expectation step
M step で必要となる \(\gamma,\xi\) は、条件付き独立性を用いることで効率的に計算することができます。
条件付き独立性を用いてそれぞれ変形すると、以下の再帰式を導くことができます。(計算過程)
※ なお、ここで \(\alpha\) の再起式をforward-algorithm、\(\beta\) の再起式をbackward-algorithmと呼ぶことがあります。
また、これらを用いて \(\xi\) を記述することもでき、以下のように表せます。(計算過程)
以上でBaum-Welchに必要な計算式が求まりました。
おまけ(尤度関数)
尤度関数は、アルゴリズムの停止条件に用いられるなど、値を求めることが非常に有用です。
求める際は、
の両辺を \(\mathbf{z}_n\) について周辺化すれば、左辺は
となることが明らかなので、以下のように求まります。
また、上記の式は任意の \(n\) について成立するので、\(n=N\) の場合を考えれば \(\alpha\) のみを用いて求めることができます。