0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

論文メモ: Phonetic Word Embedding (Sharma 2021)

Posted at

はじめに

Phonetic Word Embedding (Sharma 2021)を読んでみます。

論文情報

動機

趣味で空耳替え歌を自動生成する試みをしており、タイトルに惹かれたので読んでみる。

背景

  • 単語埋め込みは単語の特徴を表現する有用な技術だが、主に意味特徴に基づいており、音韻特徴を捉える能力は低い。
  • 音韻特徴を捉えられるようになることで、キーワード検出や詩の生成など様々な下流タスクへの応用が期待される。

関連研究

  • 先行研究では、カーネギーメロン大学の発音辞書の単語を音素バイグラムの有無で表現した疎行列にPCAを適用することで、単語を音素に基づく50次元の埋め込みに変換した。しかし、この研究では、音素の位置の影響を排除する調整が行われていた。

提案手法

  • 先行研究では音素の位置の影響を考慮しなかったが、実際には音素の位置は、音韻特徴に影響すると思われる。そこで、音素の位置を考慮したルールベースの類似度計算方法を提案し、それをベースに次元圧縮することで、より品質の良い音韻埋め込みを得ることを目指す。
  • 以下、音素の類似度、単語の類似度、埋め込み計算の3ステップで手法を説明する。

音素の類似度

  • ユニグラム: 単一音素(ユニグラム)の類似度は、音素をいくつかの特徴セット(有声、無声などの言語学的な音響特徴)の集合で表したときの、集合同士のjaccard係数とする。つまり共通する特徴が多いほど高くなる。
  • バイグラム: バイグラムの場合の特徴セットは、各音素の特徴セットの和集合とする。
  • 母音の重み: 母音は子音と比べて長いことが多いので、バイグラムの2つめの音素が母音かつ同一の場合、似て聞こえやすい。これを反映するために、2つめの音素が母音でかつ一致するときの類似度が高くなるように補正する。具体的には、母音が一致するなら類似度を0.5乗し、それ以外なら2乗する。

単語の類似度

  • 重み付き編集距離: 単語を音素列に変換し、重み付き編集距離を類似度とする。バイグラムの場合は、語頭、語末にBGN、ENDという特殊音素を付加したうえでバイグラムの音素列に変換して、同様に重み付き編集距離を求める。
  • 非対角ペナルティ: 編集距離の計算において非対角ペナルティを設定することで、位置が異なる音素の置換を起こりにくくする(注:感想に書いたけど式5は色々間違っている気がするし、非対角にペナルティを与えられているのかも不明)

埋め込み計算

  • 単語の類似度行列を作って因子分解で次元圧縮する

実験結果

実験

  • CMU発音辞書の単語をもとに埋め込みを作成
  • unigramかbigram、非対角ペナルティの有無、母音重みの有無など条件を変えて評価
  • 先行研究の音素の位置情報を考慮しない手法(PSSVec)と比較。
  • Vitz(1973)の人間が評価した類似度データと相関係数を比較。
  • 提案手法の中では非対角ペナルティp=2.5で母音重みありのbigram(次元圧縮前)が最も高性能(fig1)、PSSVecよりも高性能(fig2)、次元圧縮してもほぼ精度が維持(fig4)

埋め込み空間の評価

  • 英語とヒンディー語でいくつかの単語をマッピング。音韻が近そうな単語が埋め込み空間上でも近くにマッピングされることを確認(fig5, 6)

ダジャレベースの評価

  • ダジャレデータセットから対応する語彙が同一でないもの(ヘテログラフィックダジャレ)の単語ペアを取得し、コサイン類似度を計算。PSSVecより提案手法のほうが1に近いところにより高いピーク。

感想

  • ルールベースで類似度行列作って因子分解で圧縮するというやり方は参考になる。
  • 評価方法も参考になる。
  • 埋め込みの作り方の数式の細かいところはよくわからなかったり納得感薄かったりする。
    • バイグラムの音素類似度で和集合つかっているけど順番の情報が失われていいの?
    • 母音の重み付けで2乗したり0.5乗したりするのがだいぶトリッキー。重み係数にしなかった理由が不明。
    • 式5はDPでminを求めているけどmaxを求めるべきだと思うし、挿入や削除に相当する計算の部分(otherwiseのところ)でS(a,b)が登場するのも違和感。無音との類似度であるべきでは? 「非対角ペナルティ」もよくわからなくて、式5ではai!=bjのときにペナルティつけてるけど「非対角」というならi!=jのときにつけるべきでは。あと音素列の長さが同じじゃないときの対角要素をどう扱うかも不明。
  • 精度はルールベースと同等で計算量だけ減らしたという感じ。パラメータは結局手動で決定している。もう少し人がルールを作らない方法があるといいなと思った。
  • 音韻特徴を反映した埋め込みの研究、今まで知らなかったけど、Googleとかも普通にやっていそう? 次読んでみたい。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?