🔰PyTorchでニューラルネットワーク基礎 #27【トークナイズ編・Unigram LM】

Last updated at 2026-04-01Posted at 2026-03-23

概要

トークナイズ編の３回目となります。今回はUnigram Language Modelについて自分なりにまとめてみました。トークナイズの考え方ですが、手法と初期分割の方法に分けて整理してみました。

アルゴリズム（手法）
- BPE (Byte Pair Encoding): 隣接するトークンx,yの頻度freq(x,y)を最大化するトークンをくっつけていく（１回目）
- WordPiece: 隣接するトークンx,yのPMI(x,y)を最大化するトークンをくっつけていく（２回目）
- Unigram: 最初に語彙集合を決めて文章尤度を最大化する語彙を残し、影響度の少ない語彙を削除していく（３回目）
初期分割方法（前処理）
- Metaspace：Unicode文字単位で分割。空白を特殊記号"_"に変換
- ByteLevel：文字をUTF-8のバイト単位で分割。256種類の数値ですべて表現できる。
- Whitespace：空白で分割

アルゴリズムと初期分割の方法で組み合わせられるようですが、組み合わせ方にも相性があるっぽい。３回目はUnigramの手法です。その前に、トークンという言葉使いについてです。この記事では、単語や一文字（「あ，い，0，1，A，B」など）、語彙をトークンと読んでいます。トークンを集めた集合を語彙集合$V$とします。

基本的に、工藤大先生の論文に基づいて、参考文献の本を頼りに理解を深めてみました。
Taku Kudo (2018)
Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates
勝手に記号を変更してしまい申し訳ない限り

背景
これまでのテキスト分類(第20回〜第24回)では日本語文字列を形態素に分割してID化する方法を使ってきました。この方法では、新しい文字列に対して<unk>を割り当ててしまうため、データセット内で完結しない状況では有用性がありません。要するに、「全く使えん」ということになってしまいます

大規模言語モデルで利用されるタイプのIDの割り当て方を調べてみました。3回目はUnigram Language Model (Unigram LM)です。

演習用のファイル

データのファイル
- 日本語：tiny_cc100_ja.csv
- 日本語わかち書き：tiny_cc100_ja_wakati.csv
コード: sample_27.ipynb

1. Unigramの考え方

Unigramの考え方は、最初に大きな語彙集合を想定して、語彙の影響度や語彙の貢献度のような尤度の差が小さい語彙を削除していく方式と考えれば良さそうです。BPEやword pieceが語彙をつなげて、新しい語彙を作りながら、語彙集合を構成していくのに対して、unigramは文章を表現する上で削除しても問題ない語彙を減らしながら語彙集合を構成していく逆の発想になっています。

語彙集合$V_1$で構成できる文章の尤度と、語彙集合$V_1$からトークン$w$を削除した$V_1\setminus \{w\}$で構成できる文章の尤度の差を求める。
トークン$w$の影響度・貢献度を表す尤度の差（トークン$w$の損失）が大きいトークンは残し、小さいトークンを削除して、次の語彙集合$V_2$を作る。

語彙集合$V_2$を使って１番から繰り返す形になります。

1.1 少しだけ詳しめ

$D=\{X_1,..,X_j,...,X_n\}$: コーパス
$X_j\in D$: $j$番目の文章
$V$: 初期の語彙集合。すべての文章を一文字ずつに分解して、そのトークンから作られる組み合わせのイメージ。
$\theta = \{p(v)\}_{v\in V}$: 語彙集合上の確率で$\sum_{v\in V}p(v)=1$となるもの。
$S(X_j)$: 文章$X_j$の$V$による分割の集合。

例
文章 $X=(a, b, c)$からなるコーパス$D=\{X\}$を考えます。初期語彙集合$V$は、

V = \{ a, b, c, ab, bc, abc \}

や、トークンの数を2個までに制限した

V = \{ a, b, c, ab, bc\}

のようなものが想定されます。語彙はコーパス中で隣接して出現する部分列のみから構成されるため、例えば $ac$ のような非隣接トークンからなるものは $V$ に含まないぞ〜🌵

$V = \{ a, b, c, ab, bc\}$の時、文章$X=(a, b, c)$の$V$による分割の集合は

S(X) = \{ [a][b][c], [a][bc], [ab][c]\}

のように3個の集合となります。[ab]でaとbの塊で１つのトークンを表現しています。

語彙の確率が$\theta=\{p(v)\}_{v\in V}$の時、分割$Z$で文章が生成される確率$P_{\theta}(Z)$を

P_{\theta}(Z)=\prod_{t=1}^{|Z|}p(v_t)

と考えます。独立や同分布などが暗黙のうちに仮定されているんだろうなって。

Unigram LMの基本的なアイディアは、コーパス全体の対数周辺尤度を最大にする$\theta = \{p(v)\}_{v\in V}$を求めて、尤度にあまり影響のないトークンを削除していく方法となります。

形式的には、コーパス$X_j$の分割$Z$で文章が生成される確率$P_{\theta}(Z)$を使い、対数周辺尤度を最大にするような確率$p(v)$を求める形に落とし込むことになります。

\arg\max_{\theta}\sum_{j=1}^{n}\log \sum_{Z\in S(X_j)}P_{\theta}(Z)
= \arg\max_{p}\sum_{j=1}^{n}\log \sum_{Z\in S(X_j)}\prod_{t=1}^{|Z|}p(v_t)

上記の式（対数周辺尤度）を最大にするような確率$p(v)$を求めて、対数周辺尤度に影響の少ないトークンを削除していく方法がUnigram LMによるトークナイズになります。対数周辺尤度を最大にする部分ですが、理論上はEMアルゴリズムを使い尤度の最大化を目指します。わかりにくいので後で具体例で求めてみよう🌸

1.2 ちょっとだけ詳しく

本来はコーパスの集合として$D=\{X_1,..,X_j,...,X_n\}$のようにたくさんの文章を考えるのですが、$D=\{X\}$と一文だけにして、Unigram LMによるトークンの削除までの理論的な流れを追ってみたいと思います。尤度の$\sum_{j=1}^{n}$がなくなるので少し簡単になります。

1. 記号の準備

$D=\{X\}$: 文章一つのコーパス集合
$V=\{v_1,...,v_k\}$: 初期語彙の集合
$V^m=\{(z_1,…,z_m)∣z_t\in V\}$ : $m$個の長さの語彙（文みたいなもの）
$\Omega=\cup_{m=1}^{\infty}V^m$: 語彙集合$V$から作られる文章全体
$\theta=\{p(v)\}_{v\in V}$: 語彙集合$V$上の確率 $\sum_{v\in V}p(v)=1$となります。
$S(X)$: 文章$X$の$V$による分割の集合
$P_{\theta}(Z)$: 語彙の確率が $\{p(v)\}$ の時に生成される文$Z\in\Omega$の生成確率で
$$P_{\theta}(Z)= \prod_{t=1}^{|Z|}p(v_t)$$と計算される。統計学っぽいテキストだと$P(Z|\theta)$と書かれることが多いみたい。
小文字$p$で語彙の確率、大文字$P_{\theta}$で文の確率を表しています。
$P_{\theta}(X) = \sum_{Z\in S(X)} P_{\theta}(Z)$と定義する。$X\not\in\Omega$だけど$X$の分割を使って構成しておきます。
文章$X$の条件のもとで、分割が$Z\in S(X)$である事後確率
$$P_{\theta}(Z|X)=\frac{P_{\theta}(Z)}{P_{\theta}(X)}=\frac{P_{\theta}(Z)}{\sum_{Z\in S(X)}P_{\theta}(Z)}$$

2. 対数周辺尤度
コーパスの対数周辺尤度$L(D, V,\theta)$を変形してみました¹。

 \begin{align*}
L(D,V,\theta)
& = \log P_{\theta}(X) \\
& =  \log\sum_{Z\in S(X)}P_{\theta}(Z)\\
& =  \log\sum_{Z\in S(X)}\prod_{i=1}^{|Z|}p(v_i)\\
\end{align*}

この尤度を最大にする$\theta = \{p(v)\}$を求めたい！でも、logの中に∑があるので面倒そう

3. EMアルゴリズムを使う
$\{p(v)\}$を推定する方法として、EMアルゴリズムを使います。EMアルゴリズムは補助的な確率$q(Z)$とJensenの不等式を使って$\{p(v)\}$を計算する方法で、

E step: $\theta$を固定して$L(D, V, \theta)$の下界を最大にする$q(Z)$を求める。
M step: $q(Z)$を固定して、$L(D, V, \theta)$の下界を最大にする$\{p(v)\}$を求める。

この2ステップを繰り返す形になります。Expectation StepとMaximization Stepかな？

E stepまでの道のり

対数周辺尤度を徐々に変形していきます。
$q(Z)$は$\sum_{Z\in S(X)}q(Z)=1$となる確率で無理やり追加してJensenの不等式を使える形に変形します。
最後、確率同士の距離みたいな概念のKLダイバージェンスを使って再び無理やり変形します

 \begin{align*}
L(D, V, \theta)
& = \log P_{\theta}(X)
& Xの対数尤度 \\
& = \log \sum_{Z\in S(X)} P_{\theta}(Z)\\
& = \log \sum_{Z\in S(X)} q(Z) \cdot \frac{P_{\theta}(Z)}{q(Z)}\\
&\ge \sum_{Z\in S(X)} q(Z) \cdot \log \frac{P_{\theta}(Z)}{q(Z)} 
& \text{Jensen}の不等式\\
& = \sum_{Z\in S(X)} q(Z) \Bigl[  \log P_{\theta}(Z) - \log q(Z) \Bigr] \\ 
& = - \Bigl[ \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z)  \Bigr] 
& (🍀)\\ 
& = - D_{KL}(q || P_{\theta}( \cdot |X)) + \log P_{\theta}(X)
& \text{KLダイバージェンスの部分}\\
\end{align*}

上記の式の最後の等式（KLダイバージェンスの部分）の計算を確認。∑とか面倒そうに見えるけど、条件付き確率を戻して、logの割り算を計算しているだけ

\begin{align*}
D_{KL}(q || P_{\theta}( \cdot |X))
& = \sum_{Z\in S(X)} q(Z) \log \frac{q(Z)}{P_{\theta}(Z|X)} 
& KLダイバージェンスの定義\\
& = \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z|X) \\
& = \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log \frac{P_{\theta}(Z)}{P_{\theta}(X)} \\
& = \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\Bigl[\log P_{\theta}(Z) - \log P_{\theta}(X) \Bigr]\\
& = \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z) + \log P_{\theta}(X)
& (★)\\
\end{align*}

あとは、適当〜に移項するとKLダイバージェンスの部分の式になります。

E step
$L(D,V,\theta)$の下界である「$- D_{KL}(q || P_{\theta}(\cdot|X))+\log P_{\theta}(X)$」を大きくする$q(Z)$を探します。KLダイバージェンスは$q(Z)$と$P_{\theta}(Z|X)$の距離みたいなものなので、$q(Z)=P_{\theta}(Z|X)$の時、下界が最大になります。

具体的に計算すると、...

\begin{align*}
q(Z)
& = P_{\theta}(Z|X) \\
& = \frac{P_{\theta}(Z)}{P_{\theta}(X)} \\
& = \frac{P_{\theta}(Z)}{\sum_{Z\in S(X)}P_{\theta}(Z)}
\end{align*}

$p(v)$で求めた分割$Z$の生成確率を、ちゃんと確率になるように調整（正規化）したものが$q(Z)$となります。あとで具体例で計算してみることにしよう

確認ポイント
下界が最大になっているのだけど、(★)の式の最初と最後だけを眺めると、

D_{KL}(q || P_{\theta}( \cdot |X))
= \sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z) + \log P_{\theta}(X) \\

となります。移項作業して、

\begin{align*}
\log P_{\theta}(X)
& = D_{KL}(q || P_{\theta}( \cdot |X)) - \left[\sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z)\right] \\
& =  - \left[\sum_{Z\in S(X)} q(Z) \log q(Z) - \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z)\right] \\

\end{align*}

という形になります。

$\log P_{\theta}(X)$は対数尤度で、これを最大にしたい。
[]で囲まれた部分。これは🍀式の部分と同じ（「−」もちゃんと含めてね）
E stepで求めた値を使うと、KLの値は0

E stepで求めた$q(Z) = P_{\theta}(Z|X)$を使うと、下界(🍀の式)が当初最大化したかった尤度$\log P_{\theta}(X)$に一致しています。(ちょっと説明が下手かも)
E step と、次のM step を繰り返して、より大きな$L(D,V,\theta)$の値を見つけたい。

M step

E stepで構成した$\{q(Z)\}_{Z\in S(X)}$を所与として、尤度を最大化する$\theta = \{p(v)\}$を求めます。

再び、尤度の式から同じような変形をします。

 \begin{align*}
L(D, V, \theta)
& = \log \sum_{Z\in S(X)} P_{\theta}(Z)\\
& = \log \sum_{Z\in S(X)} q(Z) \cdot \frac{P_{\theta}(Z)}{q(Z)}\\
&\ge \sum_{Z\in S(X)} q(Z) \cdot \log \frac{P_{\theta}(Z)}{q(Z)} 
& \text{Jensen}の不等式\\
& = \sum_{Z\in S(X)} q(Z) \Bigl[  \log P_{\theta}(Z) - \log q(Z) \Bigr] \\ 
& = \sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z) - \sum_{Z\in S(X)} q(Z) \log q(Z) \\ 
\end{align*}

これも同じパターン。下界を大きくするように考えるのですが、最後の式の第2項目は$\theta$に無関係の固定値。実質的に最大化で重要なのは第一項目 $\sum q(Z)\log P_{\theta}(Z)$ だけとなります。

 \begin{align*}
\sum_{Z\in S(X)} q(Z)\log P_{\theta}(Z)
& = \sum_{Z\in S(X)} q(Z) \log \prod_{t=1}^{|Z|} p(v_t) \\
& = \sum_{Z\in S(X)} q(Z) \sum_{t=1}^{|Z|}\log  p(v_t)  & (🌸)\\
& = \sum_{v\in V}\left[ \sum_{Z\in S(X)} q(Z) n(v,Z) \right] \log p(v) \\
& = \sum_{v\in V} c(v) \log p(v) 
\end{align*}

$n(v, Z)$は分割$Z$の中に、トークン$v$が存在する数となります。
$Z$の中に$v_t$が2回登場する場合、(🌸)の部分は$\log p(v_t)$が2回たされたあと、$q(Z)$をかけることになります。つまり、$n(v_t, Z)=2$と$\log p(v_t)$と$q(Z)$を掛け算することになります。わかりにくい説明で大変申し訳無い限り
[]で囲まれた部分を$c(v)$と表記します。
$$
c(v) = \sum_{Z\in S(X)} q(Z) n(v,Z)
$$
期待カウントと解釈できそうです。

当初の目的の最大化に戻ります。$\sum_{v\in V} p(v) = 1 $という条件のもと、

\arg\max_{\{p(v)\}} \sum_{v\in V} c(v) \log p(v)

を求めることになります。制約条件付きの最大化問題なのでラグランジュ乗数法を使っちゃいます。

L = \sum_{v\in V} c(v) \log p(v) + \lambda \left(1-\sum_{v\in V}p(v)\right)

とおいて、$p(v)$や$\lambda$で微分してイコール0として計算しましょう。

\begin{align}
\frac{\partial L}{\partial p(v)} = \frac{c(v)}{p(v)} - \lambda = 0 \\
\frac{\partial L}{\partial \lambda} = 1 - \sum_{v\in V} p(v) = 0 
\end{align}

(1)と(2)から、

p(v) = \frac{c(v)}{\sum_{v\in V}c(v)}

という綺麗な形になります。期待カウントを正規化した値が尤度を大きくする$p(v)$となります。

4. トークンの影響度・貢献度
トークン$t$の影響度・貢献度は

\text{loss}(t) = L(D, V, \theta) - L(D, V\setminus\{t\}, \theta)

で求められそうです。トークン$t$が削除されたときの損失という意味合いでもあるので、lossと命名してあります。

5. 削除候補
loss(t)が小さいトークンを語彙集合$V$から削除します。逆に、loss(t)が大きいトークンは残す形になります。１個だけ削除とかだと効率が悪そうなので、20%削除、80%残すみたいな判断をするっぽい。

削除候補が$t^{*}$なら、

t^{*}\in \arg\min_{t} L(D, V, \theta) - L(D, V\setminus\{t\}, \theta)

みたいに表現できます。概念上では、すべての分割で期待値を計算するし、$L(D, V\setminus{t}, \theta)$の値もEMアルゴリズムを使って計算するわけですので非常〜に面倒そうです。実際は、色んな工夫をしてloss(t)を簡便に求めているようです。

6. 分割
語彙集合$V$が完成したあと、どのように文をトークナイズしていくのかについてです。文章$X$の尤度が最大になる分割$Z^*\in S(X)$とします。式だと

Z^* \in \arg\max_{Z\in S(X)}\prod_{t=1}^{|Z|}p(v_t)

となります。論文ではViterbiアルゴリズムを使って求めるとしています。

1.3 具体例で愚直に計算してみた

文章 $X=(a, b, a)$ からなるコーパス$D$を考えます。初期語彙集合を$V_1=\{a, b, ab, ba, aba\}$とします。

$(a, b, a)$ : 文章
$V_1=\{a, b, ab, ba, aba\}$: 初期語彙の集合
$p(v)$: トークン$v$の確率
$S(X) = \{[a][b][a], [a][ba], [ab][a], [aba]\}$

$p(v) = 1/5$、つまり、すべてのトークンが等しい状況を初期確率とします。

1. 文の確率 $P_θ(Z)$を計算
$P_{\theta}(Z) = \prod_{t=1}^{|Z|}p(v_t)$を使って計算します。

$P_{\theta}$([a][b][a]) = p(a)p(b)p(a) = (1/5) * (1/5) * (1/5) = 1/125

$P_{\theta}$([a][ba]) = p(a)p(ba) = (1/5) * (1/5) = 1/25

$P_{\theta}$([ab][a]) = p(ab)p(a) = (1/5) * (1/5) = 1/25

$P_{\theta}$([aba]) = p(aba) = 1/5

合計を求めます。
$$\sum_{Z\in S(X)}P_{\theta}(Z) = 36/125$$

2. E step: $q(Z)$を計算
$q(Z)= \frac{P_{\theta}(Z)}{\sum_{Z\in S(X)}P_{\theta}(Z)}$を使って計算します。

q([a][b][a]) = (1/125)/(36/125) = 1/36

q([a][ba]) = (5/125)/(36/125) = 5/36

q([ab][a]) = (5/125)/(36/125) = 5/36

q([aba]) = (25/125)/(36/125) = 25/36

3. 期待カウント: $c(v)$の計算
分割の中に、トークンがどれくらいあるのかの期待値を計算します。

c(a) = 2×q([a][b][a]) + 1×q([a][ba]) + 1×q([ab][a]) = 12/36

c(b) = 1×q([a][b][a]) = 1/36

c(ab) = 1×q([ab][a]) = 5/36

c(ba) = 1×q([a][ba]) = 5/36

c(aba) = 1×q([aba]) = 25/36

合計を求めます。
$$\sum c(v) = 48/36$$

4. M step: 期待カウントの正規化
$p(v) = \frac{c(v)}{\sum_{v\in V}c(v)}$を利用して、正規化した期待カウントを求めます。

p(a) = (12/36)/(48/36) = 12/48

p(b) = (1/36)/(48/36) = 1/48

p(ab) = (5/36)/(48/36) = 5/48

p(ba) = (5/36)/(48/36) = 5/48

p(aba) = (25/36)/(48/36) = 25/48

これで、EMアルゴリズム的に最適な確率が求まります。

p(a)=1/5 → p(a) = 1/4 =: p*(a)

とアップデートされる感じ。最適化されたpをp*と書いておきます。

5. EM後の$L(D,V_1,\{p^*(v)\})$を求める

\begin{align*}
L(D,V_1,\theta^{*}) 
& = \log ( P_{\theta}([a][b][a]) + P_{\theta}([a][ba])+ P_{\theta}([ab][a]) + P_{\theta}([aba])) \\
& = \log \left( \frac{1}{4}\cdot\frac{1}{48}\cdot\frac{1}{4} 
            +\frac{1}{4}\cdot\frac{5}{48}
            +\frac{5}{48}\cdot\frac{1}{48} + \frac{25}{48}\right)
\end{align*}

6. 削除トークンを探す
V₁からトークンvを削除して、L(D, V\{v}, θ)を計算するぞ。これにもEM使うから、もしかして、非常に面倒だから、実際のコードは近似計算になるんだなって思うよ。

6.1 {b}を削除候補としてみた

$(a, b, a)$ : 文章
$V_2=\{a, ab, ba, aba\} = V_1 \setminus \{b\}$
$p(v)$: トークン$v$の確率
$S(X) = \{[a][ba], [ab][a], [aba]\}$

トークン$v$の確率から求めます。アップデートされた$p^*$はトークン$b$の確率も割り当てられています。$b$を除いた形で確率化すればいいので、

p*(a) + p*(ab) + p*(ba) + p*(aba) = 47/48を使って、トークンの確率$p^*$を求めます。
表記がぐちゃぐちゃになるのですが、再び、 「トークンの確率を$p$」 と書き直します。

p(a) = (12/48)/(47/48) = 12/47

p(ab) = 5/47

p(ba) = 5/47

p(aba) = 25/47

6.1 $P_θ(Z)$を計算
語彙集合に$b$が無いので、文の分割も変わってきます。

$P_{\theta}$([a][ba]) = p(a)p(ba) = (12/47) * (5/47)

$P_{\theta}$([ab][a]) = p(ab)p(a) = (5/47) * (12/47)

$P_{\theta}$([aba]) = p(aba) = 25/47

合計を求めます。
$$\sum_{Z\in S(X)}P_{\theta}(Z) = 1295/(47*47) = 1295/2209$$

6.2 E step: $q(Z)$を計算
$q(Z)= \frac{P_{\theta}(Z)}{\sum_{Z\in S(X)}P_{\theta}(Z)}$を使って計算します。

q([a][ba]) = (60/2209)/(1295/2209) = 12/259

q([ab][a]) = (60/2209)/(1295/2209) = 12/259

q([aba]) = (25/2209)/(1295/2209) = 235/259

6.3 期待カウント: $c(v)$の計算
分割の中に、トークンがどれくらいあるのかの期待値を計算します。

c(a) = 1×q([a][ba]) + 1xq([ab][a]) = 24/259

c(ab) = 1×q([ab][a]) = 12/259

c(ba) = 1×q([a][ba]) = 12/259

c(aba) = 1×q([aba]) = 235/259

合計を求めます。
$$\sum c(v) = 283/259$$

6.4. M step: 期待カウントの正規化
$p(v) = \frac{c(v)}{\sum_{v\in V}c(v)}$を利用して、正規化した期待カウントを求めます。

p(a) = (24/259)/(283/259) = 24/283

p(ab) = (12/259)/(283/259) = 12/283

p(ba) = (12/259)/(283/259) = 12/283

p(aba) = (235/259)/(283/259) = 235/283

これで、EMアルゴリズム的に最適な確率が求まります。

p(a)=12/47 → p(a) = 24/283 =: p*(a)

とアップデートされる感じ。最適化された$p$を$p^*$と書いておきます。

6.5 EM後の$L(D,V_2,\{p^*(v)\})$を求める

\begin{align*}
L(D,V_1\setminus\{b\},\theta^{*}) 
& = \log ( P_{\theta}([a][ba])+ P_{\theta}([ab][a]) + P_{\theta}([aba])) \\
& = \log \left( \frac{24}{283}\cdot\frac{12}{283} 
            +\frac{12}{283}\cdot\frac{24}{283}
            +\frac{235}{283}\right)
\end{align*}

6.6. トークン$b$の損失

\text{loss}(b) = L(D, V_{1}, \theta^*) - L(D,V_{1}\setminus\{b\}, \theta^*)

これでトークン$b$の損失が求まります。多分計算あっていると思うけど、あまり自信ないな。もう一つだけ計算してみた。

6.7. {aba}を削除候補としてみた

$(a, b, a)$ : 文章
$V_2=\{a, b, ab, ba\} = V_1 \setminus \{aba\}$
$p(v)$: トークン$v$の確率
$S(X) = \{[a][b][ab], [a][ba], [ab][a]\}$

同様に計算すると、

\begin{align*}
L(D,V_1\setminus\{aba\},\theta^{*}) 
& = \log ( P_{\theta}([a][b][a]) + P_{\theta}([a][ba])+ P_{\theta}([ab][a])) \\
& = \log \left( \frac{127\cdot6\cdot127}{248^3}+\frac{127\cdot124\cdot115}{248^3}+\frac{127\cdot124\cdot115}{248^3}\right)
\end{align*}

\text{loss}(aba) = L(D,V_1, \theta^*) - L(D,V_{1}\setminus\{aba\}, \theta^*)

7. 損失の比較

あとは、同じように$ab$や$ba$、$a$のトークンを削除候補として対数尤度を求めて損失まで計算します。多分、トークンbの損失が小さいので$b$を削除することとなります。

\text{loss}(b)  = \min \{
\text{loss}(aba), 
\text{loss}(ab), 
\text{loss}(ba), 
\text{loss}(a) , 
\text{loss}(b)\}

なので、損失（削除効果）が小さいトークンbを削除することになります。

非常に面倒😱 というかあり得ない大変さだから、実際のコードは近似計算になるんだなって思うよ。

ここから気を取り直して、実装に移りたいな。近似計算で非常に高速なはず。

2. 実装

unigram language model によるトークナイザーを作成してみます。BPEでは多言語、word pieceでは分かち書きでも試してみました。今回は小さなサイズの日本語コーパスを扱います。今回は理論面での解説が中心だったので、実装面は小さめに

学習に利用するデータはcc100データセットの日本語（ja）から抽出した２万行となります。テキストファイルにしてみました。

Unigram + (Metaspace)

import random
import pandas as pd
from tokenizers import Tokenizer, models, trainers, pre_tokenizers, normalizers

# (1) Unigram を使う（unk_token は trainer 側で指定するのがポイント）
tokenizer = Tokenizer(models.Unigram())
#tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
#tokenizer = Tokenizer(models.WordPiece(unk_token="<unk>"))


# (2) 正規化つけてみた
tokenizer.normalizer = normalizers.NFKC()

# (3)
# 分かち書きの時ONにして効果を確認してみたいな
#tokenizer.pre_tokenizer = pre_tokenizers.Metaspace(replacement="▁")

#(4) <unk>の指定
trainer = trainers.UnigramTrainer(
    vocab_size=10_000,
    special_tokens=["<pad>", "<bos>", "<eos>", "<unk>", "<mask>"],
    unk_token="<unk>",
    shrinking_factor=0.75,
    max_piece_length=16,
    n_sub_iterations=2,
)

# (5) csvファイルから直接学習
paths = ["./data/tiny_cc100_ja.csv"]

# (6) ランダムにする意味ないけど、そのままコピーして使っただけ
def mixed_iterator(paths):
    texts = []
    for p in paths:
        # text列だけ読み込む
        df = pd.read_csv(p)
        texts.extend(df["text"].tolist())   
    # 一気にシャッフル（数百万件程度までならこの方法でOKなはず）
    random.shuffle(texts)  
    for t in texts:
        yield t

# (7) 学習
tokenizer.train_from_iterator(mixed_iterator(paths), trainer=trainer)

# (8) 保存
tokenizer.save("./tokenizer/unigram_10k.json")

説明メモ

NFKCはちょっとした正規化処理。これまでつけてなかったけど
- 全角英数字が半角英数字ＡＢＣ１２３ → ABC123
- 半角カナが全角カナﾃｽﾄです → テストです
- ㍿みたいなの（なんて言うのかな）㍿○△□ → 株式会社○△□
(3) Metaspaceの部分、OFFにしてあります。ONにすると効果がはっきりわかるかと思います。サンプル出力で「_」だらけになるので今回は省略OFFにした。
(8)出力されたJSONファイル、今までと異なり、トークンのlog(確率)もついています。特殊トークンのlog(確率)は0となっています。

毎回同じパターンです。

text_list = [
    "これは日本語のテストです",
    "Awesome blog! Do you have any suggestions",
    "📷　정교하면서 완벽하게 아날로그 카메라를 재현한 것 같다.",
    "你好",
    "𐀀𐀁"
]
    
for text in text_list:
    encoded = tokenizer.encode(text)
    print(f"文章: {text}")
    print("トークン:", encoded.tokens)
    print("ID:", encoded.ids)
    print(f"デコード: {tokenizer.decode(encoded.ids)}\n")

入力データに存在しない文字は<unk>となります。デコードしても元の文字に戻らないぞ〜。

文章: これは日本語のテストです
トークン: ['これは', '日本語', 'の', 'テスト', 'です']
ID: [391, 1324, 6, 4120, 207]
デコード: これは 日本語 の テスト です

文章: Awesome blog! Do you have any suggestions
トークン: ['A', 'w', 'e', 's', 'o', 'm', 'e', ' ', 'b', 'l', 'o', 'g', '! ', 'D', 'o', ' ', 'y', 'o', 'u', ' ', 'h', 'a', 'v', 'e', ' ', 'an', 'y', ' ', 's', 'u', 'g', 'g', 'est', 'i', 'on', 's']
ID: [121, 1133, 226, 522, 171, 318, 226, 14, 951, 547, 171, 600, 1005, 361, 171, 14, 1309, 171, 415, 14, 647, 276, 1257, 226, 14, 3229, 1309, 14, 522, 415, 600, 600, 6908, 255, 1871, 522]
デコード: A w e s o m e   b l o g !  D o   y o u   h a v e   an y   s u g g est i on s

文章: 📷　정교하면서 완벽하게 아날로그 카메라를 재현한 것 같다.
トークン: ['📷', ' ', '정교하면서', ' ', '완벽하게', ' ', '아날로그', ' ', '카메라를', ' ', '재현한', ' ', '것', ' ', '같다', '.']
ID: [3, 14, 3, 14, 3, 14, 3, 14, 3, 14, 3, 14, 3, 14, 3, 254]
デコード:               .

文章: 你好
トークン: ['你', '好']
ID: [3, 2149]
デコード: 好

文章: 𐀀𐀁
トークン: ['𐀀𐀁']
ID: [3]
デコード:

日本語がトークナイズされているのはOK、というか、これが目的。
何故かアルファベットも綺麗に復元されている。
今回利用したtiny_cc100_ja.csvという日本語コーパスの超ミニュチュア版にもアルファベットがたくさん入っているようです。「MacbookPro」とか「Submitボタン」と言う感じに自然に馴染んでいました。日本語へのアルファベットの浸透度恐るべし😆

参考

機械学習と情報技術というサイトのトークナイゼーション（BPE/WordPiece/SentencePiece）を解説にコンパクトにまとまっています。他の内容も大変勉強になります

今回自分が参考にしたのは、次の書籍になります。詳しい文献案内もついていて大変勉強になりました。日本語の専門書ってありがたいなと思ってしまった😆

持橋大地 (2025) 『統計的テキストモデル　言語へのベイズ的アプローチ』岩波書店

次回

BERTのようなTransformer Encoderタイプのモデルで登場するMLM (Masked Language Modeling)について扱う予定です。

目次ページ

注

対数尤度$L(D,V,\theta)$の表現ですが、今回は語彙集合$V$が変わっていくので、$V$を関数の中に入れて表現しました。 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up