###はじめに
この記事は、GoogleのMagentaプロジェクトのドキュメント
"Generating Sequences With Recurrent Neural Networks"(David Ha)の翻訳です。
このドキュメントは、Alex Graves氏による同名の論文のレビュー記事であり、
Apache License, Version 2.0で配布されている成果物です。
Google Brainはディープラーニングにより、美術や音楽を生成するプロジェクトMagentaを立ち上げました。Magentaの目的の1つは、プロジェクトの研究を紹介することでもあり、いくつかの論文のレビュー記事を公開しています。
リカレントニューラルネットワーク(RNN)は時系列データと相性の良いニューラルネットワークで、GoogleのプロジェクトMagentaでも、作曲をするモデルとして使われています。この記事では、RNNによる時系列の生成の基本的な考え方を解説します。
#リカレントニューラルネットワークによる時系列の生成
2013年にAlex Graves氏によって書かれたGenerating Sequences With Recurrent Neural Networksは、リカレントニューラルネットワークによる時系列生成について述べた主要な論文の1つとなっています。ここでは、時系列データの確率分布をモデリングすることについて議論しています。このアプローチにより、次に起こることを正確に予測する代わりに、過去から知ったすべての情報から未来の確率分布を予測するRNNを得ます。
人間でさえ、未来を正確に予測することに比べて、未来に何がどれくらい起こりそうか予測する方が簡単です。しかしながら、これは機械にとっては難しい問題で、特にマルコフ性を持たない時系列にとっては難しいです。このような予測は、全過去の時系列が与えられた場合に、次のステップで起こる確率分布を計算することだと定義することができます。
P( Y[n+1]=y[n+1]\ |\ Y[n]=y[n], Y[n-1]=y[n-1], Y[n-2]=y[n-2], \ldots) \ \ \ \ (1)
N-gramモデルのようなシンプルな方法では、前のN個の文字が与えられ、次の文字を予測します。そこでは、t-Nステップ以前のものは切り捨てて近似します。それではNが大きくなった時に、うまく調節されません。
この論文で、Graves氏は(1)式で確率分布関数(PDF)を近似するために、どのようにRNNを使うのかを説明しています。RNNは再帰的であるため、過去の出来事の豊かな表現を記憶することができます。この論文では、遠い過去の情報もRNNが記録しておくためにLSTMセルを使うことを提案しています。この変更により、時系列の次の値の確率分布関数は、現在の時系列の値と、RNNの隠れ状態の関数として、近似することができます。
P( Y[n+1]=y[n+1]\ |\ Y[n]=y[n], H[n]=h[n]) \ \ \ \ (2)
Graves氏は、シェークスピアの作品やすべてのWikipediaの記事やオンラインの手書き文字のデータベースを含めた、多くの時系列データセットに、RNNを学習させてフィッティングする方法を詳細に解説しています。この学習では、RNNによって生成される時系列と、実際のデータセットとのクロスエントロピー誤差を使った、バックプロパゲーション(backpropagation through time :BPTT)を用いています。さらに、勾配刈込み(Gradient clipping)を使うことによって、勾配や重みが発散されてしまうのを防ぎます。
訓練を行った後に、興味深いことが起こります。もし、RNNが生成した確率分布が実際のデータの経験確率分布関数に十分近いなら、この分布からサンプルを取って、模造ではあるものの、もっともらしい時系列をRNNは生成します。このテクニックはここ2,3年によく知られるようになりました。これは政治的皮肉(Obama-RNN,@deepdrumpf)やアスキーアートの生成にも使われています。
近年この手法の応用として、文書の生成が最も幅広く使われています。このデータは簡単に利用可能で、確率分布はソフトマックス層でモデリングされます。一方、それに比べてあまり研究されていないのは、音の波形や、手書き文字や、ベクター絵画を含む、実際の"数"の時系列を生成するアプローチです。
この論文では、オンラインの手書き文字データベースでRNNを訓練させる実験をしています。このデータは、タブレットから記録された実際の手書き文字で、一筆一筆ベクトル形式で表現されています。IAM手書き文字データセットの例はこのようになっています。
これらの手書きサンプルは、タブレットによって座標移動の小さなベクトルの集まりの表現として記録されています。それぞれのベクトルは、ベクトルとは別に2値状態をもっていて、これは一筆が終わること(すなわち、ペンがスクリーンから離れること)を示しています。一筆が終わった次のベクトルは、新しい一筆を始める座標を示しています。
それぞれのベクトルをランダムな色で視覚化することによってこのように訓練データがみえます。
さらに、同様にそれぞれの一筆をランダムな色で視覚化することができ、それはそれぞれの小さなベクトルを視覚化するより、魅力的に見えます。
モデルはそれぞれの一筆ではなく、それぞれのベクトルに対して訓練することを述べておきます。(一筆はペンが上がるまでのベクトルの集まりです)
RNNのすることは、次の座標移動(移動の大きさを示す実数の組み合わせ)の条件付き確率分布と一筆が終わる(2値で示され、これをSとします)条件付き確率分布をモデリングすることです。
P( X[n+1]=x_{n+1}, Y[n+1]=y[n+1], S[n+1]=s[n+1]\ |\ \\X[n]=x[n], Y[n]=y[n], S[n]=s[n], H[n]=h[n] ) \ \ \ \ (3)
論文で解説されている方法では、XとYの条件付き確率分布を多数の小さなガウス分布を足し合わせた混合ガウス分布で近似し、Sはベルヌーイの乱数変数で近似しています。混合分布のパラメーターを生成するためにニューラルネットワークを使うテクニックは、当初、ビショップによって、フィードフォワードネットワークのために開発されました。このアプローチをRNNに拡張します。それぞれのステップでRNNは(x[n],y[n],s[n],h[n])を混合ガウス分布関数のパラメーターに変換します。これは、時間が経て、xやyが書き換えられるにしたがって、変わっていきます。例えば、RNNが前のいくつかの点を見ているのを想像してください(灰色の点です)、そしてRNNは次の点の場所に対する確率分布を予測するはずです(ピンクの範囲です)。
ペンは今の一筆を続けるかもしれませんし、それを終えて右に移動しあらたな文字を書き始めるかもしれません。RNNはこの不確実性をモデリングします。すべてのIAMデータベースに対してモデルをフィッティングした後、RNNで偽物の手書き文字を上で述べたようにサンプリングできます。
サンプリングの過程でRNNが出力する確率分布を詳しく調査することもできます。ここではRNNの考えを理解するために、RNNのサンプルに加えて、座標移動の確率分布(赤い点)と一筆がおわる確率(灰色の線の濃さ)のサンプルを視覚化しています。
このことはとても強力です。そして将来、この時系列をサンプリングする方法を拡張することにより、あらゆる方針を探求することができます。例えば、少し変更が加えられたRNNは、中国漢字のデータに対して訓練することができ、虚構の中国漢字を生成します。
Graves氏の論文の続く部分では、条件付きサンプリングを行ういくつかの方法も解説しています。書きたいある文字と、その前後の文字の情報を利用するモデルが与えられると、文字のつながりの微妙な差異を理解することができるようになります。
P( X[n+1]=x[n+1], Y[n+1]=y[n+1], S[n+1]=s[n+1]\ |\ X[n]=x[n], Y[n]=y[n],\\ S[n]=s[n], C[n+1]=c[n+1], C[n]=c[n], C[n-1]=c[n-1], H[n]=h[n] ) \ \ \ \ (4)
すべてのモデルと同様に、生成RNNモデルは制限がないわけではありません。例えば、生成RNNモデルは動物のベクトル描画のようなより複雑なデータセットで訓練することは難しいでしょう。それぞれの画像の性質が複雑で、多様であるからです。例えば、ある動物を描写するときに、モデルは目や耳、鼻、体、足、しっぽのようなより高次の概念を学習する必要があります。人が書いたり描いたりするとき、ほとんどの場合、事前に書きたいものに関するアイディアを持っています。このモデルの1つの欠点は、出力層だけにランダム性が集中していることであり、このような高レベルの概念を捉え、生成することができないのかもしれないです。
このRNNのテクニックの見込みのある拡張は、RNNをVariational RNN (VRNN)に変換して、条件付き確率分布を学習することです。この新しい方法を使うことによって、コンテンツの種類や出力のスタイルを管理するために、潜在変数やthought vectorをモデルに埋め込むことができます。Graves氏の論文では、VRNNを先ほどと同じ手書き文字の実験に適用したときに、いくつかの頼もしい結果が出ました。VRNNによって生成された手書き文字のサンプルは、あるスタイルからほかのスタイルに変わらずに、同じ手書きのスタイルを維持しています。
結論として、この論文はRNNを生成モデルとして動かせるようにする方法論を紹介し、コンピューターがコンテンツを生成する領域における、興味深い方向性を開拓しています。