要注目な強化学習の応用事例
Team AI研究会では継続的に強化学習のビジネスユースケースを議論していますが、
その中の一つが自然言語処理分野への応用です。
特に日本語の自然言語処理は限られた辞書データ等の課題がありますが、
強化学習エージェントを上手に利用することでなんとかブレークスルーが起きて欲しいと思います。
そんな中、下記の非常に興味深い論文を見つけました。
A Deep Reinforced Model for Abstractive Summarization
抽象的な要約のための注意深いRNNベースのエンコーダ/デコーダモデルは、短い入力および出力シーケンスに対して良好な性能を達成している。
しかし、長い文書や要約の場合、これらのモデルにはしばしば反復的でインコヒーレントなフレーズが含まれます。我々は、イントラアテンションと新しいトレーニング方法を備えたニューラルネットワークモデルを紹介する。
この方法は、標準監督された単語予測と強化学習(RL)とを組み合わせる。前者のみで訓練されたモデルは、しばしば「ばく露バイアス」を示し、訓練中に各ステップで地上の真理が提供されると仮定します。
しかし、標準単語予測がRLの大域的配列予測トレーニングと組み合わされると、得られる要約がより読みやすくなる。このモデルは、CNN / Daily MailとNew York Timesのデータセットで評価します。
私たちのモデルは、CNN / Daily Mailデータセットで41.16 ROUGE-1スコアを取得しています。これは、従来の最先端モデルよりも5.7ポイントの改善点です。
また、ニューヨークタイムズコーパスの最初の抽象モデルとしても機能します。人間の評価はまた、我々のモデルがより高い品質の要約を生成することを示している。
出典:
https://arxiv.org/abs/1705.04304



