LoginSignup
71
101

【強化学習編】2022年に読むべき「機械学習/ディープラーニングの最新論文」30選

Last updated at Posted at 2022-06-15

はじめに

今回は強化学習編として、Transformer/BERTの発展モデルや新たな学習法・正則化方法の提案に関する内容などの最新論文を7本ご紹介します!著者実装が公開されているものは、その情報も併せてまとめました。論文は自動機械学習(AutoML)を専門としICMLなどのトップカンファレンスへの論文採択経験もある斉藤と、需要予測・異常検知など様々な分野で機械学習/ディープラーニングの産業応用に取り組んできた小縣が中心となってスキルアップAI講師陣にて厳選しました。ぜひ、今後の学びにご活用ください!

  • CoBERL: Contrastive BERT for Reinforcement Learning

    • 実装のURL:https://github.com/deepmind/dm_control
    • 強化学習における新たなエージェント「Contrastive BERT for Reinforcement Learning(CoBERL)」を提案
    • BERTから着想を得た上で、新たな対照損失及びLSTMとTransformerを組み合わせたアーキテクチャを導入
    • Atariゲームにおいて57ゲーム中49ゲームで人間のスコアを上回った
  • Decision Transformer: Reinforcement Learning via Sequence Modeling

    • 実装のURL:https://github.com/kzl/decision-transformer
    • Transformerやzero-shot学習など、最近大きな成功を収めている手法から着想を得た強化学習方法「Decision Transformer」を提案
    • 強化学習の要素にTransformer等を用いるのではなく、系列データのモデリング問題に置き換えてから - Transformerなどを適用して学習している
    • AtariとOpenAI Gymにおいて既存手法と同等かそれ以上のスコアを達成
  • Zeroth-Order Actor-Critic

    • 実装のURL:なし
    • 勾配情報を利用しない進化戦略と方策勾配法を組み合わせたZOAC(Zeroth-Order Actor-Critic)を提案
    • 進化戦略における”パラメータ数が大きくなると最適化に必要なサンプル数が増加する”という短所を、方策勾配法で補助することで解消
  • Efficient Learning of Safe Driving Policy via Human-AI Copilot Optimization

    • 実装のURL:なし
    • 新たなhuman-in-the-loop学習法であるHACO(Human-AI Copilot Optimization)を提案
    • HACOは運転タスクで既存手法のスコアを上回り、学習ステップも大幅に減少した
    • HACOによる自動運転は、従来手法と比較して慎重な行動を行う傾向にあり、より高度な能力を付加していくことを示唆している
  • Regularizing Action Policies for Smooth Control with Reinforcement Learning

    • 実装のURL:なし
    • 強化学習において、学習されたコントローラの出力が安定せず発振してしまう問題を解決するために、新たな正則化方法としてCAPS(Conditioning for Action Policy Smoothness)を提案
    • CAPSは時間的な平滑性と空間的な平滑性の2つの要素を持っており、シミュレーションから実用に転用しやすいように設計されている
    • ドローンの姿勢制御を対象とし、実験でCAPSは性能を維持したまま平滑性を向上させ、実用的には消費電力を80%削減させた
  • SimGAN: Hybrid Simulator Identification for Domain Adaptation via Adversarial Reinforcement Learning

    • 実装のURL:https://github.com/jyf588/SimGAN
    • sim-to-real transferのような、一度学習した方策を他のドメインに転移するドメイン適応の新たなフレームワークであるSimGANを提案
    • ニューラルネットワークと物理シミュレーションを組み合わせており、物理シミュレーションの認識にはGANを利用
    • ロボットの歩行タスクにおいて、ベースラインを上回るスコアを達成
  • Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation

    • 実装のURL:なし
    • 人間が直感的に理解できても、機械が学習するには膨大なサンプル数が必要となるようなタスク(論文内では迷路内のビー玉をゴールへ導くタスク)を実用に耐えうる時間内で学習できるモデルを提案
    • 物理エンジンと実システムの出力の残差をガウス過程回帰で補正する、というプロセスを反復的に行っている
    • 汎用的な物理エンジンをベースに設計しているため、転移学習が容易で、ロボット制御の面での発展を示唆している

次回予告

次回は最終回として「実務応用編」に関する最新論文を紹介します!ご期待ください!

スキルアップAIでは、Transformer/BERTの基礎および強化学習の基礎から応用まで学ぶ「現場で使えるディープラーニング基礎講座」や、AIの説明可能性について学ぶ 「現場で使える XAI(Explainable AI)講座」を開講しています。基礎から学びたい方は、ぜひご検討ください。

また、スキルアップAI技術ブログでは
文章読解タスクにおける Adversarial Examples
など自然言語処理や敵対的攻撃に関連する最新論文の解説も行っております。こちらも併せてご覧ください。
また、弊社がリリースする論文検索アプリ「ScholarPlanets」もぜひご活用ください。

25卒向け!AIエンジニアになるための長期インターンプログラム参加者募集中!

25卒学生向けに、AIの基礎を学びながら就活も一括サポートする無料カリキュラムを提供しています。
修了するとE資格の受験資格も獲得できるプログラムとなっています!

長期インターン

特長①AIエンジニアやデータサイエンティストの基礎が身に付く
AIジェネラリスト基礎講座や機械学習のためのPython入門講座など、市場価値向上のための基礎を習得。

特長②AI・データ分析領域の優良求人を紹介
非公開求人や選考直結型インターンをご紹介し、早期内定の獲得をサポート。

特長③長期インターンプログラム専用の学生コミュニティ参加可
学生同士で就活情報をシェアしたり、学習を進めるうえでアドバイスをしあったりできるコミュニティに参加可能。

>>長期インターン詳細

☆☆☆
スキルアップAIのメールマガジンでは会社のお知らせや講座に関するお得な情報を配信しています。
配信を希望される方はこちら

また、SNSでも様々なコンテンツをお届けしています。興味を持った方は是非チェックしてください♪
Twitterはこちら
Facebookはこちら
LinkedInはこちら
スキルアップAI公式YouTube AIビジネスチャンネルはこちら

71
101
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
71
101