#この記事では
HMM(隠れマルコフモデル)の変種であるHSMM(隠れセミマルコフモデル)について簡単にその概要と利点についてまとめてあります。
##そもそもHMMとはという方に
この記事がわかりやすいです。
https://www.kabuku.co.jp/developers/hmm
簡単にいうと確率的に遷移する隠れ状態を持ち、その状態における確率分布に従って出力を行うオートマトンといったところでしょうか。
##HSMMとは
$ $
ではHMMとHSMMの違いはなんなのでしょうか。
その違いは「状態継続長」にあります。
時間tにおけるオートマトンの隠れ状態を$z_t$とおきましょう。
HMMでは、次の隠れ状態は$z_t$にのみ依存し、時間t+1で遷移確率に従って$z_{t+1}$に遷移します。
しかしながら、HSMMでは次の隠れ状態は$z_t$と$z_t$で消費する時間$t_s$に依存します。
時間$t$~$t+t_s$の間隠れ状態は$z_t$に留まり続け、時間$t+t_s$になると$z_{t+t_s}$に遷移し、それと同時に$z_{t+t_s}$で消費される時間$t_{s'}$が決定します。
この$t_s$,$t_{s'}$は状態継続長と呼ばれ、HSMMを特徴づける重要な要素です。
なのでパラメータ集合もHMMとHSMMでは異なり、
HMMのパラメータ集合が
$$(a_{ij},b_{i},\pi_i)$$
$a_{ij}$が状態の遷移確率、$b_{i}$が記号の出力確率、$\pi_i$が初期状態の確率であるのに対して、
HSMMのパラメータ集合は
$$(a_{ij},b_{i},\pi_i,p_{i})$$
$a_{ij}$が状態の遷移確率、$b_{i}$が記号の出力確率、$\pi_i$が初期状態の確率、そして$p_i$が状態iごとの消費時間(duration)の確率分布となります。
この確率分布$p_i$は一様分布であったり正規分布であったり色々変えていいようです。
##HSMMの利点
探した中では京大の論文(http://sap.ist.i.kyoto-u.ac.jp/members/yoshii/papers/ipsjnc-2016-maruo.pdf) がわかりやすくまとめられていて良かったです。
この論文は音楽のコード認識に関する論文なのですが、HMMの問題点として、同一の状態にとどまり続けると単調にその確率が減少していってしまうことが挙げられています。
すごい直感的な説明をすると、ある日やってきたセールスを断ったとして次の日もそのセールスマンがやってくる確率は10回に1回もないと思われますが、
4日連続そのセールスマンがやって来たとすると、そんなやばい奴どうせ次の日もやって来るに決まってるのでそのセールスマンが4日連続来る確率と5日連続来る確率はほぼ変わらないと思われます。
HMMはそのような事象に対応できないので$\frac{1}{10}$を乗算し続けてしまいますが、HSMMは確率分布を用意することによってその事象を再現することが可能となります。
そういう点もあって、speech recognitionやimage recognitionに使われて来たという歴史があるようです。
こちらの論文に他の利点や応用例がまとまっているようなのですが、かなり長いのでほぼ読めていないです。
これから読むことがあればまとめようと思います。
https://www.sciencedirect.com/science/article/pii/S0004370209001416
最後に
もともとLearning Neural Templates for Text Generationという論文
(https://arxiv.org/abs/1808.10122) を読む過程でHSMMを調べたのですが、まとまった記事が全く出てこなかったので書きました。
ただこの論文ではdurationの確率分布が一様分布なので長さに対応した確率分布が欲しいわけではなさそうですね。なんでHSMMにしたんだろう。