8
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

ひとり開発Advent Calendar 2019

Day 17

歌詞からコード進行の生成 Attentionによる可視化

Last updated at Posted at 2019-12-16

#はじめに
初めてのAdvent calendar参加です。

以前歌詞からコード進行を生成するseq2seqモデルを作りました。
歌詞からコード進行を生成する

本記事ではAttentionを用いてどの言葉に着目してコード進行を生成したのか可視化できるように改良してみます。
さらに、前のモデルでは単語の埋め込み層を1から学習しましたが、今回はsudachiで提供されている学習済みの分散表現を用います。

成果物はこちらです
Lyrics to Chords

#Seq2seq with attention
seq2seqは時系列入力を特徴ベクトルにまとめるエンコーダーと特徴ベクトルから時系列出力を生成するデコーダーで構成されます。それぞれRNNとなっており、LSTMなどを用いることで長い時系列の入力もうまく扱うことができます。分かりやすい例は機械翻訳で、日本語の文を単語に分け順番にエンコーダーに入力したあと、デコーダーによって対応する英語の文を出力するように学習させたりします。

ここでAttentionという機構を導入すると、出力文中のある単語に対する、入力文中のそれぞれの単語の重みを得ることが出来るため、重みが大きいものがネットワークが着目している単語と推定することができます。
Attention Seq2Seqで対話モデルを実装してみた
今更ながらchainerでSeq2Seq(2)〜Attention Model編〜

私はPytorchで実装しましたが、pytorchのチュートリアルのコードだとattentionの計算に無駄にループが回っており非常に遅いため行列演算に書き換えたほうがいいです。

seq2seqなので入力と出力のそれぞれに対応する重みを2次元行列として得ることができます。しかし,ある単語を歌っているときにはその時刻に対応するコードがなっているはずなのに,他の時刻のコードの重みが大きいとなんだかよくわからなくなってしまいます。なので今回は出力方向には積分してしまい,そのコード進行全体に対してどの単語が大きく寄与したか,を可視化しました。

#学習済み分散表現の利用
Seq2seqに日本語文を入力する場合、RNNの前に全結合層を通して、one-hotベクトルから分散表現への変換を行います。

この全結合層も学習しても良いのですが、歌詞とコード進行が対応した学習データをたくさん集めるのは難しいですし、この世のすべての曲を集めたところで、世の中の文章データからすると僅かなものです。そこで、すでに大量の日本語文章から学習された分散表現を使ったほうが、ある程度言葉の意味を正しく捉えられると期待できます。

ワークスアプリケーションズが公開している学習済み分散表現はなんと100億語規模の国語研日本語ウェブコーパスのデータによって学習されているらしく、単語と分散表現の書かれたテキストファイルが12GBもあります。
使い方は簡単でgensimで簡単に読み込むことが出来ます。
Sudachiベースの学習済みWord2Vecモデルを使う

ところで、個人で趣味でサーバーを借りてwebアプリを公開しようとすると、せいぜいメモリは1〜2GBとかです。よってgensimで12GBの分散表現を使おうとすると、メモリが全く足りなくなってしまいます。
ニューラルネットワークを学習させるときは、処理速度が欲しいのでメモリの多いマシンを使えばいいですが、予測に使う場合はそこまで速度は入らないので、毎回HDD(SSD)から読み込むようにします。いろいろ試した結果、下記のようにするのが一番速かったです。
Sudachipyの学習済みword2vecを低メモリ環境で使用する

#結果

『コード進行と歌詞の関係性』その2。定番のコード進行の使い分けによって同じ歌詞でも意味が違って聴こえます。
前回と同じように上記のサイトに乗っているコード進行のイメージを入力してどんなコード進行が生成されるか見てみます。
今回はどの言葉に注目したか可視化されます。
重みが大きい単語ほど赤く大きく表示されるようにしています。

長調系

Dm→G→Cの表現「伝わるだろうか?でも言おう!愛してる!」
image.png

Dm→G→CM7の表現「伝わるだろうか?でも言おう!愛してる...これで良かったのだろうか」
image.png

A♭→B♭→Cの表現「愛してる!愛してる!!A・I・SHI・TE・RU!!!!我と共にあれ!!!!!!」
image.png

短調系

Dm→Em→Amの表現「あぁ、愛したとも。愛してしまったのさ。叶わぬ恋さ」
image.png

Dm→E7→Amの表現「あぁ、愛したとも。とってもとっても!!愛した俺儚い切ない悲劇の主人公」
image.png

D7→E7→Amの表現「言うぞ、言うぞ!!愛し...やっぱりダメだ。人妻じゃないか」
image.png

おわり

やっぱりなんとも言い難い結果。でもキーワードっぽいものに反応してそうな気はします。愛してるとか儚いとか人妻とか。
結局こういうのは評価が難しいですね。

ところでsudachiはApache License 2.0なのですが,webアプリの場合は表記しなくてもいいんですね。それともhelpあたりには書いとくほうがいいんでしょうか。なんとなく何も書かないのも気になりますし。

8
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?