LoginSignup
16
10

More than 1 year has passed since last update.

NLP:2021年の私的注目トピックまとめ(2022年動向予想付き)

Last updated at Posted at 2022-01-13

自然言語処理(NLP)分野における2021年の私的注目トピックをまとめてみました。ざっくりですが、2022年動向予想も付けておきます。

※他にも重要なトピックがあるよ... などコメントがありましたら、是非、コメントをお願いします。
※以下の図表は対応する論文や記事からの引用です。
※以下のイベントに参加中。もし参考になりましたら、LGTM よろしくお願いします(^_^)

Zero-Shot/Few-Shot Learning

2021年に最も多くの話題を提供したのは、GPT-3で注目を集めたZero-Shot/Few-Shot Learningではないでしょうか。Zero-Shot/Few-Shot Learningでは、大量データで教師なし学習をした後、数件の教師ありデータの例示により推論を行います。同一のモデルで様々な推論を行えるという汎用性の高さが特長です。2021年は、Zero-Shot/Few-Shot Learningの改良や応用に関する論文が多数発表されました。特に、以下が注目されていたと思います。

  • GitHub Copilot & Codex: Evaluating Large Language Models Trained on Code
    Codexは仕様を記述した文書からプログラムを生成するモデルです。GitHub上のプロトタイプ機能GitHub Copilotとして既に利用可能です。最初に出力したプログラムが正しい確率は約29%、10回プログラムを出力してその中に正しいプログラムが含まれる確率は約47%と報告されています。言語モデルGPT-3を、下図のような仕様テキストとコードのペアでファインチューニングすることにより、学習を行っています。

    Codexの学習データの例

  • GPT-J-6B [hugging face site]
    GPT-3は注目を集めていますが、コードは公開されていません。APIを通じて利用はできますが有料です。そこで、オープンソースコミュニティによりGPT-J-6Bが開発されました。GPT-J-6Bは、GPT-3とほぼ同じアーキテクチャを持ち、GPT-3の同等規模モデルとほぼ同じ精度を出せます。コードも公開されており、無料で使えます。

マルチモーダルモデル

2021年はマルチモーダルモデル(テキスト、画像、動画、音声など複数種類のデータを統合して学習・推論を行うモデル)も多くの注目を集めました。2017年、attentionモジュールを組み合わせた学習モデルによりNLPの精度が大きく向上しました。2020年にはattentionが画像認識でも有効であることが実証されました。2021年は、attentionが動画やマルチモーダルでも有効であることが実証された年になりました。以下が注目を集めていました。

スクリーンショット 2022-01-14 042245.jpg

会話モデル(チャットボット)

チャットボットなどに利用される会話モデルは、改良が続けられ、実用性が向上してきているようです。以下のGoogleのデモが注目を集めました。

  • LaMDA(Language Model for Dialogue Applications)
    LaMDAは、会話のトピックの連続性や、会話内容の具体性を高めるように最適化された言語モデルです。LaMDAが冥王星のふりをして、人間の質問に流暢に答える [デモ動画] はとても印象的です。

スクリーンショット 2022-01-14 045439.jpg

ベンチマーク

Browse State-of-the-Artによると、2021年は、特定のべンチマークの記録を多少更新するようなモデルは散見されましたが、多数のベンチマークの記録をまとめて大幅に更新する大スターのような言語モデルは登場しなかったと言えるでしょう。巨大化した言語モデルの改善点を評価したり、問題点を発見するには、今あるベンチマークは単純で簡単すぎるのかもしれません。少なくとも、新しいベンチマークが必要と考える研究者は多かったようです。

AI倫理への関心の広がり

2021年は、AI倫理への関心が社会に広がった年でもあったと思います。以下のようなニュースが関心を集めました。

  • The Chatbot Problem
    チャットボットが殺人や自殺を勧めたり差別的発言をしていること、自律的殺人兵器が実用化され実戦投入されていることをとりあげています。
  • グーグルのAI倫理研究者は、なぜ解雇されたのか?
    巨大化したNLPモデルに対しコストと環境負荷の観点から問題提起をした論文 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?の著者二人を、グーグルが解雇しました。グーグルは、論文発表を理由とする解雇ではないとしていますが、AI倫理問題に神経質になっている経営陣が過剰反応したのではないかという見方もでており、数名の著名な研究者がグーグルからの資金援助を拒否するなど、批判が広がりました。

(まとめに代えて)2022年の動向予想

チャットボットの高度化が徐々に進み、マルチモーダルモデルの応用の試行がそろそろ増え始めるのではないでしょうか。AI倫理の問題は、これからもつきあい続けることになるのだろうと思います。

リファレンス

2021年のNLP注目トピックをもっと探してみたいという方には、以下の記事をお薦めします。

以下は、本記事で紹介した論文や記事のリストです。

16
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
10