概要
2020年1月16日にGoogleによって公開されたReformerのcolab環境を使用して、手動入力した日本語の続きを自動的に生成してみます。
背景
2020年3月現在、言語翻訳やチャットボット、自動作曲などのサービスが当たり前のように社会に組み込まれています。これらの実現のために使用されているディープラーニング技術は、2016年頃まではRNNやLSTMが主流でしたが、2017年の7月に発表されたTransfomerで高い精度を得られることが分かると、研究分野を中心に次第にTransfomerに切り替わっていきました。
そして、2020年1月16日にGoogleから「Reformer: The Efficient Transformer」というタイトルの記事が発表されました。Reformerは、タイトル通り「効率的なTransfomer」ということで、処理速度と使用リソース面でTransfomerから改善が行われています。
ディープラーニングの世界では、大量のデータを使って高い精度を追い求めると、どうしてもメモリ等のリソースが不足しがちです。ところが、今回の改善では仮にキーワードが100万個あったとしても16GBのメモリサイズで処理が可能になったそうです。
改善内容の詳細は、公式記事を見ていただければと思いますが、個人的には以下2つの工夫点によって処理が効率化されたと理解しています。
Reformer効率化の要点
LSH(locality-sensitive-hashing)による処理速度向上
これまでのTransformerでは、長いシーケンスのデータを取り込むとAttention処理で計算量が増えてしまいました。
Reformerでは、ハッシュ関数を使用して各キーワードをチャンクと呼ばれるグループに振り分けて、分散表現の近い単語同士を同じチャンク(あるいは隣のチャンク)に集めることで計算量を減らしています。また、チャンク毎の並列処理によっても処理速度を向上させています。reversible residual layersによる使用メモリ量削減
Transformerでは、大規模なデータを取り込んで数千もの層で処理を行うと、テラバイト級のメモリが必要になることもあります。Reformerでは、reversible layersを使用して、ディープラーニングの各層の情報をメモリに保存せずに逆伝播時に再計算することによって、使用するメモリサイズを少なくしています。
前提
難しいことはさておき、今回、試したことを整理します。
試したこと
Googleが公開した英語の自動生成のサンプルコードを使って、日本語も同じように自動生成できるかを試しました。日本語の質を追求している訳ではなく、それらしい文章を生成するところまでです。
精度、処理時間、使用メモリ量などに関して、Transformerとの比較は行っていません。
実行環境
実行環境は、オリジナルと同じGoogle colab環境です。ipynb形式をchrome上で実行しています。
オリジナルのサンプルコードは、TPUを使用するように定義されており、colab環境での実行に最適化されているようです。
(補足ですが、ローカルのCPU環境でも学習までは処理が進んだことは確認しました。)
なお、今回の試行では、日本語を生成するためにデータを変えながら何度も試行を重ねています。
その過程をご覧になりたいかたは、「こちら」を参照してください。
試行結果
オリジナルを実行
何はなくとも、まずは公開されているオリジナルをそのまま実行してみます。
オリジナルの処理で何をやっているかというと、ドストエフスキーの小説「罪と罰」を学習してモデルを作成後、任意に入力した「There was a time when」に続く文章を自動生成しています。
学習データの読み込み
読み込むファイルのパスは、「gs://」となっており、Cloud Storage内に公開ファイルとして置かれていますので、気にせずにそのまま実行します。
学習(1step)
学習は「train_epoch」にて行っていますが、1stepしか学習していないため、精度や損失は非常に悪いです。
文章生成1
最後に「There was a time when」に続く文章を8パターン自動生成しています。
パッと見て単語の並び順は合っていそうですが、よく読むと、「There was a time when the door , 」のように変な位置にカンマが登場していて、理解できない文章も多いです。文章生成2
この状態で再度文章を生成してみると、まだ理解に苦しむ部分は残っていますが、先ほどよりは改善しているようです。
日本語を生成
日本語のWikipediaを学習してみます。
英語と同様に日本語も割と簡単に生成できましたので、今後、学習を重ねることでより自然な日本語を生成できそうです。
以上