More than 5 years have passed since last update.

強化学習事例集 by Team AI

Last updated at 2017-10-25Posted at 2017-10-25

はじめに

強化学習の時代が来ようとしています。
Team AIの研究会でも、現状ゲームAIとロボティクスに偏りがちな事例を、
もっと多くの産業に広げていきたいと日々議論しています。
今日はそんな強化学習業界の発展に寄与すべく、事例集を日本語訳していきたいと思います。
エンジニアの皆様のヒントになりましたら幸いです。

元情報；
http://umichrl.pbworks.com/w/page/7597597/Successes%20of%20Reinforcement%20Learning
https://sites.ualberta.ca/~szepesva/RESEARCH/RLApplications.html
(速習強化学習 p76で紹介されていました)

上記より、2008年以降の研究論文をご紹介します。

Adapting to Run-Time Changes in Policies Driving Autonomic Management

実行時に変更をポリシードライビング自律管理に適応

オートノミック・コンピューティングにおけるポリシーの使用は、最近の重要な関心事を受けています。ポリシー駆動型管理は、リエンジニアリングではなく、ポリシー操作を通じて実行時にシステムの動作を定義し変更することがより簡単になるため、大きな利点があります。本稿では、異なるパフォーマンス目標を達成するためにアクティブポリシーのセットを最適に使用する方法を決定するために強化学習方法を使用する適応型ポリシー駆動型の自律管理システムを紹介します。特に、政策アクションの1つのセットについて学んだものを「;同様のもの」に適合させるための戦略に焦点を当てる。実行時ポリシーの変更が発生したときの一連のポリシーマルチコンポーネントWebサーバーの動作に対するアダプテーション戦略の影響を示します。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4488327&isnumber=4488306&punumber=4488305&k2dockey=4488327@ieeecnfs
http://dx.doi.org/10.1109/ICAS.2008.47

A Collaborative Reinforcement Learning Approach to Urban Traffic Control Optimization

都市交通制御最適化への協調的強化学習アプローチ

1人当たりの自動車の高い成長率は、効率的なアーバントラヒックコントロール（UTC）への真の課題となっている。都市交通の非常に動的な性質に対処するためには、UTCへの効率的な解決策が適応的でなければならない。近い将来、全地球測位システムおよび車両から車両への/インフラストラクチャー通信は、より良いグローバルなUTC最適化のために採用される交通状況のより詳細なローカルビューを提供することができる。この論文では、トラフィック制御を最適化するために、ジャンクションのトラフィックに関するこのようなローカル知識を活用する次世代UTCシステムの設計について説明します。グローバルUTCの最適化は、Collaborative Reinforcement Learning（CRL）を使用して最適化されたローカル適応型ラウンドロビン（ARR）フェーズスイッチングモデルを使用して行われます。この設計では、トラフィックパターンに基づいて適切な位相タイミングを学習するために、隣接エージェントと連携する各信号接続点にARR-CRLベースのエージェントコントローラを採用しています。我々は、ダブリン市内中心部の大規模な交通シミュレーションにおいて、非適応固定時間UTCシステムと飽和バランスアルゴリズムとの比較を行う。我々は、ARR-CRLアプローチが、飽和バランスアルゴリズムと比較して1台の車両あたり最大約57％の平均待機時間をもたらす大幅な改善をもたらすことができることを示す。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4740684&isnumber=4740584&punumber=4740404&k2dockey=4740684@ieeecnfs
http://dx.doi.org/10.1109/WIIAT.2008.88

Adaptive Critic Learning Techniques for Engine Torque and Air--Fuel Ratio Control

エンジントルクと空燃比制御のための適応的批判的学習技術

エンジン較正と制御のための新しい手法が提案されている。本稿では、自動車エンジンの自己学習制御のための適応型評論の実装に関する研究成果を紹介する。本研究プロジェクトでは、（モデルフリーの）行動依存ヒューリスティックダイナミックプログラミングとして分類できる適応的批評デザインのクラスが使用されています。自動車エンジン用の現在の学習制御設計の目標は、様々な運転条件の下での改善された性能、低減された排気量、および最適な性能を維持することを含む。V8エンジンを搭載したテスト車両のデータを使用して、最適制御を達成するための近似動的計画法の考え方に基づいて、エンジンおよびニューラルネットワークコントローラのニューラルネットワークモデルを開発しました。我々は、エンジントルク（TRQ）および排気空燃比（AFR）制御のための自己学習ニューラルネットワークコントローラを開発し、シミュレートした。TRQ制御とAFR制御の目標は、指令値を追跡することです。両方の制御問題について、優れたニューラルネットワークコントローラの過渡性能が達成されている。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4554033&isnumber=4567535&punumber=3477&k2dockey=4554033@ieeejrns
http://dx.doi.org/10.1109/TSMCB.2008.922019

Policy gradient based Reinforcement Learning for real autonomous underwater cable tracking

実際の自律型水中ケーブル追跡のための政策勾配に基づく補強学習

本論文では、自律ロボットの行動選択問題をケーブル追尾タスクで解決するための高次強化学習（RL）制御システムの応用を提案する。学習システムは、内部状態/動作マッピングを学習するための直接的なポリシー検索方法を用いることを特徴とする。ポリシーのみのアルゴリズムは、実際のロボットを扱う際に収束時間が長くなることがあります。プロセスを高速化するために、シミュレートされた環境で学習フェーズが実行され、第2ステップでは、実際のロボットでポリシーが正常に転送およびテストされました。将来のステップでは、前述のタスクを実行しながら実際のロボット上で学習プロセスをオンラインで継続する予定です。我々は水中ロボットICTINEU AUVでの実際の実験でその可能性を実証する。

http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4650873&isnumber=4650570&punumber=4637508&k2dockey=4650873@ieeecnfs
http://dx.doi.org/10.1109/IROS.2008.4650873

Simulation-optimization using a reinforcement learning approach

強化学習を用いたシミュレーション最適化

産業システムなどの複雑なシステムのグローバルな最適化は、しばしばコンピュータシミュレーションの使用を必要とする。本稿では、シミュレーションモデルの最適化のための強化学習（RL）アルゴリズムと人工ニューラルネットワークの使用を提案する。グローバル最適値を見つけるために、いくつかのタイプの変数が考慮されます。既知の最適値を用いた数学関数による最初の評価の後、我々のアプローチの利点は、製造システムで頻繁に見られる在庫管理問題の例を用いて説明される。単一品目および複数品目の在庫ケースが考慮されます。提案された手順の効率を市販のツールと比較する。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4736213&isnumber=4736042&punumber=4712635&k2dockey=4736213@ieeecnfs
http://dx.doi.org/10.1109/WSC.2008.4736213

A Suite of Robust Controllers for the Manipulation of Microscale Objects

マイクロスケール物体の操作のためのロバストなコントローラのスイート

マイクロエレクトロメカニカルシステム（MEMS）におけるマイクロスケール物体のピックアップ操作のための新規なロバストコントローラの一式が導入されている。MEMSでは、接着剤、表面張力、摩擦、ファンデルワールス力が支配的です。さらに、これらの力は一般に知られていない。提案されたロバストコントローラは、未知の接触ダイナミクスを克服し、これらの力の上限が分かっていることを前提にアクチュエータの制約がある場合にその性能を保証します。一方、頑強な適応型評論ベースのニューラルネットワーク（NN）コントローラでは、未知の動的力がオンラインで推定される。それは、未知のシステムダイナミクスを補償するアクションNNと、ある戦略的ユーティリティ関数を近似し、アクションNNの重みを調整するための評論家NNとからなる。リアプノフのアプローチを用いることで、ピックアップタスクのすべてのコントローラについて閉ループ操作誤差の均一な最終的な有界性が示されています。実用的なシステムを模倣するために、いくつかのシステム状態は、測定ノイズの存在のために利用不可能であると考えられる。適応型NNコントローラの出力フィードバックバージョンは、高ゲインオブザーバ設計による分離原理を利用して提案されています。測定ノイズの問題は、基準システムを構築することによっても克服される。シミュレーション結果を提示し、比較して理論的結論を立証する。適応型NNコントローラの出力フィードバックバージョンは、高ゲインオブザーバ設計による分離原理を利用して提案されています。測定ノイズの問題は、基準システムを構築することによっても克服される。シミュレーション結果を提示し、比較して理論的結論を立証する。適応型NNコントローラの出力フィードバックバージョンは、高ゲインオブザーバ設計による分離原理を利用して提案されています。測定ノイズの問題は、基準システムを構築することによっても克服される。シミュレーション結果を提示し、比較して理論的結論を立証する。

http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4389965&isnumber=4432675&punumber=3477&k2dockey=4389965@ieeejrns
http://dx.doi.org/10.1109/TSMCB.2007.909943

Using dialogue acts to learn better repair strategies for spoken dialogue systems

音声対話システムのためのより良い修復戦略を学ぶための対話行為の使用

修復またはエラー回復戦略は、音声対話システム（SDS）における重要な設計上の問題であり、進捗がない場合（たとえば、繰り返しASRエラーが発生した場合など）対話を行う方法です。ほぼすべての現在のSDSは手作業による修復ルールを使用しますが、より強固なアプローチは、データ駆動の対話戦略学習のために強化学習（RL）を使用することです。しかし、通常はシミュレーションでのみテストされるだけでなく、現在のRLアプローチでは、「対話行為」（DA）などの言語的に動機付けされた機能を含まない小さな状態空間を使用します。DA機能で学習された戦略は、実際のユーザでテストしたときに手作りの戦略やスロット状態の戦略よりも優れていることを示しています（平均タスク完了率9％、p <0.05）。次に、DAを使用してどのようにより良い修復戦略、例えばフォーカススイッチングを生成するかを探索する。私たちは、DAsがdeに有用であることを示しています。

http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4518792&isnumber=4517521&punumber=4505270&k2dockey=4518792@ieeecnfs
http://dx.doi.org/10.1109/ICASSP.2008.4518792

Widest K-Shortest Paths Q-Routing: A New QoS Routing Algorithm in Telecommunication Networks

最短K-最短経路Q-Routing：通信ネットワークにおける新しいQoSルーティングアルゴリズム

実際、非常に高速に多重化された多様なトラフィック特性及びサービス品質要求（QoS）を有する様々な種類のソース（音声、ビデオ又はデータなど）は、パケット損失、伝送遅延、遅延ネットワーク内の輻輳によって主に引き起こされる変化、変化などを含む。リアルタイムでのこれらの問題の予測は非常に困難であり、分析モデルに基づいた「従来の」方法論の有効性を疑わしいものにしています。本稿では、パケットトポロジにおけるQoSルーティング方針と、最短K-最短経路Q-routingと呼ばれる通信網の不規則なトラヒックを提案し評価する。補強の評価信号に使用される技法は、Q学習である。標準的なQルーティングと比較して、経路の探索は、ホップ数（経路内のルータの数）の点でK個の最良の非ループ経路に限定され、収束時間が大幅に短縮される。この研究では、遅延要因を改善し、強化学習に基づくルーティングの提案が関係している。私たちは、強化学習技術としてQ-learningを使用し、学習プロセスにK-shortest ideaを導入します。提案アルゴリズムは、2つの異なるトポロジーに適用される。OPNETは、提案されたアルゴリズムの性能を評価するために使用される。アルゴリズム評価は、2つのトラフィック条件、すなわち低負荷と高負荷に対して行われます。この研究では、遅延要因を改善し、強化学習に基づく経路指定の提案が関係している。私たちは、強化学習技術としてQ-learningを使用し、学習プロセスにK-shortest ideaを導入します。提案アルゴリズムは、2つの異なるトポロジーに適用される。OPNETは、提案されたアルゴリズムの性能を評価するために使用される。アルゴリズム評価は、2つのトラフィック条件、すなわち低負荷と高負荷に対して行われます。この研究では、遅延要因を改善し、強化学習に基づくルーティングの提案が関係している。私たちは、強化学習技術としてQ-learningを使用し、学習プロセスにK-shortest ideaを導入します。提案アルゴリズムは、2つの異なるトポロジーに適用される。OPNETは、提案されたアルゴリズムの性能を評価するために使用される。アルゴリズム評価は、2つのトラフィック条件、すなわち低負荷と高負荷に対して行われます。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4722795&isnumber=4722542&punumber=4721667&k2dockey=4722795@ieeecnfs
http://dx.doi.org/10.1109/CSSE.2008.1264

Reinforcement learning for dynamic channel allocation in mobile cellular systems

モバイルセルラーシステムにおける動的チャネル割り当てのための強化学習

セルラー通信システムでは、サービスの要求がランダムに変化するモバイル発信者のセットに提供されるサービスを最大にするために、通信リソース（帯域幅）を割り当てることが重要な問題である。この問題はダイナミックプログラミングの問題として定式化されており、以前のヒューリスティックなソリューションよりも優れたダイナミックチャネル割り当てポリシーを見つけるために強化学習（RL）法を使用しています。得られたポリシーは、さまざまなコールトラフィックパターンに対して適切に機能します。経験的なブロッキング確率の観点から提案された技術の優れた性能は、シミュレーションの例に示されている。
http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber=4763228&isnumber=4762962&punumber=4749420&k2dockey=4763228@ieeecnfs
http://dx.doi.org/10.1109/AMTA.2008.4763228

(以下、もっと大量にあるので時間のあるときに更新していきます)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up