自作中のシンプルな分散強化学習フレームワークの紹介

Last updated at 2025-05-31Posted at 2022-05-03

今までいろいろな強化学習アルゴリズムを実装してきましたが、以下の問題を毎回感じていました。

アルゴリズム毎に環境と学習のための実装が必要
　(gym等は環境側のインタフェースまでは提供されているが、学習を含めた実装は提供されていない)
アルゴリズムの学習フローがそもそも複雑になりやすい
分散学習まで考えると更に大変
アルゴリズムと環境が分離しきれず結構依存する
1. Atariの画像の前処理とその入力に依存したニューラルネットワークの設計
2. アクションが離散値と連続値の場合によるアルゴリズム側の違い
3. よくある数フレーム入力やフレームスキップ、実行できないアクション等を加味した場合の変更
4. 学習フローの差異（AlphaZeroやモデルベース強化学習など）
ログや可視化等の作成

既存のフレームワークを試したりしましたが自作アルゴリズムを作ろうとした場合、フレームワークの理解から勉強が必要になりかなりハードルが高いような気がしました。
そこでなるべくハードルが低くなるようなフレームワークを自作しようと思い作成しました。

このフレームワークの特徴は以下です。

カスタマイズ可能な環境の提供
カスタマイズ可能な強化学習アルゴリズムの提供
環境とアルゴリズム間のインタフェースの自動調整
分散強化学習のサポート
有名な強化学習アルゴリズムの提供
（新しいアルゴリズムへの対応）

本記事はフレームワークの説明をすると共に実装しているアルゴリズムも説明していこうかと思います。
各項目については別記事にして少しずつ作成する予定です。

Github

1.インストール

インストールする一例は以下です。
詳細はGitHubを見てください。

# 基本的な機能のみをインストール
pip install srl-framework

# 主要な拡張機能や補助的なライブラリも含めてインストール（※TensorFlowやPyTorchは含まれません）
pip install srl-framework[full]

2.使い方

import numpy as np
import srl

# ---  1. 使うアルゴリズムをimport
from srl.algorithms import ql

def main():

    # --- 2. 各configを設定
    env_config = srl.EnvConfig("Grid")  # 環境config
    rl_config = ql.Config()     # アルゴリズムconfig

    # --- 3. Runnerを作成
    runner = srl.Runner(env_config, rl_config)

    # --- 4. 学習
    if True:
        # 逐次学習の場合
        runner.train(timeout=20)
    else:
        # 分散学習の場合
        runner.train_mp(timeout=20)
    
    # 評価
    rewards = runner.evaluate(max_episodes=10)
    print(f"10回テストした結果の平均報酬: {np.mean(rewards)}")

    # 可視化
    # Terminal上で1エピソードを見る
    runner.render_terminal()

    # 1エピソードをアニメーション化
    runner.animation_save_gif("_Grid.gif")

if __name__ == '__main__':
    main()

アニメーション

Terminal上での結果

10回テストした結果の平均報酬: 0.7960000045597553
### 0, action 3, rewards [0.], next 0
env   None
work0 None
......
.   G.
. . X.
.P   .
......


 ←  : 0.10151
 ↓  : 0.07913
 →  : 0.02751
*↑  : 0.36339

### 1, action 3, rewards [-0.04], next 0
env   {}
work0 {}
......
.   G.
.P. X.
.    .
......


 ←  : 0.17283
 ↓  : 0.11623
 →  : 0.17698
*↑  : 0.48977

### 2, action 2, rewards [-0.04], next 0
env   {}
work0 {}
......
.P  G.
. . X.
.    .
......


 ←  : 0.23222
 ↓  : 0.18907
*→  : 0.61112
 ↑  : 0.24942

### 3, action 2, rewards [-0.04], next 0
env   {}
work0 {}
......
. P G.
. . X.
.    .
......


 ←  : 0.25572
 ↓  : 0.31604
*→  : 0.76530
 ↑  : 0.32385

### 4, action 2, rewards [-0.04], next 0
env   {}
work0 {}
......
.  PG.
. . X.
.    .
......


 ←  : 0.32941
 ↓  : 0.26414
*→  : 0.92709
 ↑  : 0.44327

### 5, action 2, rewards [-0.04], next 0
env   {}
work0 {}
......
.  PG.
. . X.
.    .
......


 ←  : 0.32941
 ↓  : 0.26414
*→  : 0.92709
 ↑  : 0.44327

### 6, action 2, rewards [1.], done(env), next 0
env   {}
work0 {}
......
.   P.
. . X.
.    .
......

おわりに

少しずつ開発しているので温かく見守っていただければ幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

自作中のシンプルな分散強化学習フレームワークの紹介

Github

目次

1.インストール

2.使い方

おわりに