#1. はじめに
本記事は、ランド研究所の「機械学習による航空支配」を実装する(その15)です。
今回から 強化学習ライブラリは、Stable Baselines の代わりに、RLLIB を使用することにしました。実は、このプログラミングの前に、1D 問題の GAN +強化学習をやったのですが、Stable Baselines が Tensorflow 1 にしか対応していなかったので、RLLIB を使うハメになりました。このため、2D 問題でも、Tensorflow 2 を使うことになるかもしれないので、乗り換えました。ふらふらしてゴメンナサイ。幸い、Stable Baselines も RLLIB も、高度な機能を使用しないのであれば、学習コードはほとんど同じです。
今回使用したコードは、下記 GitHub の 'mission_2' フォルダです。強化学習アルゴリズムは、SAC を用いました。
#2. Mission 2
ミッション2の登場人物(エンティティ)は以下の通りとします。
Blue Team:
Fighter x 1
Red Team:
SAM (stationary) x 1
Target (stationary) x 1
ミッション2は、Fighter 1 機を使って Target を攻撃するミッションです。原理検証(PoC: Proof of Concept)なので、学習の成否判断が出来るように、学習が上手くできればミッション成功率が 100% になるよう各エンティティの位置や射程を設定しました。具体的には、
- Target は、SAM に防護されている(SAM の射程内に Target が存在する)場合もあれば、SAM には防護されていない(SAM の射程外に Target が存在する)場合もある。
- Target には防護能力は無い。したがって、Fighter 搭載ウェポンの射程内に Target が入った場合、100% 確実に Target は破壊される。
- Fighter 搭載ウェポンの射程は、SAM の射程よりも長い時もあれば、SAM の射程よりも短い時もある。ただし、いずれの場合でも、プランさえうまく組めば Target を破壊できるだけの射程は持っている(つまり、ミッションが成立する)。
ミッション目的は、以下の2通りを考えます。
Mission 2A: 目的は、あくまで Target の破壊であり、SAM の破壊は特に必要ではない。
Mission 2B: 主目的は、Target の破壊であるが、Fighter 搭載ウェポンの射程が SAM の射程よりも長い時は、無理が無い範囲で SAM を破壊する。
いずれのミッションにおいても、Target が破壊されたらミッション終了とします。(したがって、SAM を破壊する時は、Target よりも前に破壊する必要があります)。
#3. 相対観測量
相対観測量は、距離と角度を使って下図の量としました。これにより、下図を慣性空間上で並行移動したり、回転移動したりしても、同一の観測量が得られるため、慣性座標系で観測量を定義するよりも、観測空間がずっと小さくて済みます。
この場合、観測量は以下の 19 次元になります。
コードでは以下になっています。
def get_relative_observation_mission_2(self):
obs = []
r = (self.space_x ** 2 + self.space_y ** 2) ** 0.5
v_f = self.make_v(self.fighter_1)
r_fs = self.make_r(self.sam_1, self.fighter_1)
sin_fs, cos_fs = self.compute_heading_error(v_f, r_fs)
r_ft = self.make_r(self.target_1, self.fighter_1)
sin_ft, cos_ft = self.compute_heading_error(v_f, r_ft)
r_st = self.make_r(self.target_1, self.sam_1)
sin_s, cos_s = self.compute_heading_error(r_fs, r_st)
sin_t, cos_t = self.compute_heading_error(r_ft, r_st)
obs.append(sin_fs)
obs.append(cos_fs)
obs.append(np.linalg.norm(r_fs, ord=2) / r)
obs.append(sin_ft)
obs.append(cos_ft)
obs.append(np.linalg.norm(r_ft, ord=2) / r)
obs.append(sin_s)
obs.append(cos_s)
obs.append(sin_t)
obs.append(cos_t)
obs.append(np.linalg.norm(r_st, ord=2) / r)
# print(self.fighter_1.firing_range / self.fighter_1.max_firing_range)
obs.append(self.fighter_1.firing_range / self.fighter_1.max_firing_range)
obs.append(self.fighter_1.weapon_count)
obs.append(self.fighter_1.alive)
# print(self.sam_1.firing_range / self.sam_1.max_firing_range)
obs.append(self.sam_1.firing_range / self.sam_1.max_firing_range)
obs.append(
self.sam_1.jammed_firing_range / (self.sam_1.max_firing_range * self.jammer_1.jam_effectiveness))
obs.append(self.sam_1.weapon_count)
obs.append(self.sam_1.alive)
obs.append(self.target_1.alive)
return obs
#4. 学習条件
Target は静止しているものとし、戦場中心 (50, 50) km に配置します。SAM は Target から半径[15,20] km のリング内の任意の位置とします。これにより、SAM は、その射程に応じて Target を防護している時もあれば、防護していない時もあることになります。
Fighter の初期位置は、SAM から半径 [45, 50] km のリング内の任意の位置とします。Fighter のヘディングエラーについては、ミッション1で、非常にロバストなことが判ったので、今回はヘディングエラー無しの条件だけでトレーニングし、ロバスト性を測ることにしました。これらを絵で描くと下図になります。
この場合、ミッションとしては、Fighter と SAM の射程によって、以下の2タイプが考えられます。
mission_type_1: fighter.firing_range > sam.firing_range
mission_type_2: fighter.firing_range < sam.firing_range
mission_type_1 の場合は SAM と Target の撃破が可能ですが、mission_type_2 の場合は、SAM の撃破は不可能ですので、SAM を迂回して Target を撃破することが必要です。
プランナーは、与えられたミッション条件から、これを加味してプランを生成します。これらのミッション・タイプについては、学習時には、どちらか一方のタイプにだけバイアスがかからないように、
mission_type_1 のトレーニング数:mission_type_2 のトレーニング数 = 1:1
となるように、ミッションタイプをランダムに選択してトレーニングしました。
トレーニング時の報酬については、次の2通りを試すことで、Planner 1, Planner 2 の2種類のエージェントをトレーニングし、性質の違いを見ることにしました。
Planner 1
: Target を撃破した時のみ報酬1を与えてトレーニング。SAM を撃破しても報酬は与えない。したがって、あるエピソードの最大報酬は1。これは、ミッション目的 2A を達成することを企図したプランナーになります。
Planner 2
: SAM を撃破した時に報酬1、Target を撃破した時にも報酬1。したがって、あるエピソードの最大報酬は2。この場合、Agent(プランナー)は、SAM と Target の両方を破壊するインセンティブが与えられるので、ミッション目的 2B を達成することを企図したプランナーになります。ただし、今回の学習では、Target を破壊したら、そのエピソードは終了なので、SAM はターゲットより前に破壊する必要があります。(ここは、エピソードの終端条件をどう設定するのかに依ります)。この場合、Planner 1 よりも学ぶべき内容が多くなるので、学習にはより時間がかかるようになるはずです。
Planner 2 の場合、コードでは次のよう報酬を与えます。
def get_reward_mission_2(self, done, fighter, sam, target):
reward = 0
# For destroy sam
if (sam.alive < .5) and (sam.previous_alive > .5):
reward += 1
# For done
if done:
"""
if (self.fighter_1.alive > .5) and (self.target_1.alive < .5):
if (self.fighter_1.firing_range > self.sam_1.firing_range) and (self.sam_1.alive < .5):
reward = 1
elif self.fighter_1.firing_range < self.sam_1.firing_range:
reward = 1
"""
if self.target_1.alive < .5:
reward += 1
else:
reward = -1
return reward
Planner 1 では、エピソード報酬の最大値は 1 ですので、ミッション条件が mission_type_1 であっても、mission_type_2 であっても、planner-1 の学習がうまく進んだ場合の平均報酬(期待報酬)は 1 になります。
一方、Planner 2 では、ミッション条件が mission_type_1 の時のエピソード報酬の最大値は 2、mission_type_2 の時のエピソード報酬の最大値は 1 です。学習時には、mission_type_1、mission_type_2 を1:1の比率でランダムに選択して学習させているので、学習がうまく進んだ場合の平均報酬(期待報酬)は約 1.5 になります。
#5. 学習履歴
planner-1 と planner-2 のエピソード報酬の平均値の履歴をしまします。橙色のラインが planner-1(SAM 撃破時の報酬無し、学習成功時の平均エピソード報酬 = 1)、茶色のラインが planner-2(SAM撃破時の報酬有り、学習成功時の平均エピソード報酬 = 1.5) に対応します。
予想通り、planner-2 の時のほうが学習に(平均報酬=1.5になるのに)時間がかかりますが、どちらのケースであっても学習は成功しています。
下図は、学習時の平均エピソード長です。Fighter と SAM の初期離隔は[45,50]km、resolution(タイムステップでの Fighter の移動距離=.5km) なので、Fighter の射程分も考慮すると学習後のエピソード長は 100 以下になることが期待できます。平均報酬が急に増加するタイミングで、エピソード長が急に短くなっているのはこのためです。
下図は、planner-1 の学習中のエピソード報酬の分布を示したものです。横軸が報酬の分布、縦軸がトレーニングステップです。学習が進むに連れて、報酬の分布が1の方に移動していく様子が判ります。
planner-1 学習中のエピソード長は下図のように分布しました。学習が進むと、短いエピソード長で対応できるようになります。
下図は、planner 2 の学習中のエピソード報酬の分布を示したものです。
下図は、planner-2 の学習中のエピソード長の分布を示したものです
下図は、planner-1 と planner-2 のプランの特性の違いを見るために、、どういった形でミッションに失敗/成功し得るのかを分類したものです。mission_type_1(Fighter 搭載ウェポンの射程が SAM の射程よりも長い時)では、一言にミッション成功(= Target 撃破)と言っても、SAMを撃破しているケース(下図 S1)と SAM を撃破していないケース(下図 S2)があります。一方、mission_type_2(Fighter 搭載ウェポンの射程がSAM の射程よりも短い時)では、SAMは撃破不可能なミッション条件なので、ミッション成功の類型は S3 の一通りのみになります。
トレーニング時のこの内訳を Planner-1 について書いたのが下図になります。縦軸がミッション成功率[%]、横軸がトレーニング回数です。
Planner-2 に対しては下図になります。Planner-1 と Planner-2 を比べると、学習が進むに連れて、成功率はどちらも約 100% を達成していますが、S1 と S2 の割合に大きな違いがみられます。SAM 撃破時に報酬を与えられて学習した planner-2 では、SAM を撃破してからターゲットを撃破する S1 の形の成功が多くなるように学習が進みます。(今回の学習では、Targetを破壊したら、そのエピソードは終了なので、SAMはターゲットより前に破壊する必要があります)。
学習した planner_1, planner_2 に、mission_type_1 (fighter.firing_range > sam.firing_range) のミッションをランダムに与えた時に、各プランナーが生成したプランがミッションに成功した割合を成功率として示したのが下図になります。random planner に比べると、planner_1, planner_2ともに成功率100%と向上していますが、その内訳である S1, S2 の比率には大きな違いがあります。当然ですが、SAMの破壊にインセンティブを与えるよう報酬を与えてトレーニングした Planner 2 では SAM を破壊する割合 S1 が大きくなっています。Planner 2 の学習を続けていくと S1 の形の成功がさらに増えていくのか、この辺りで飽和するのかは判りませんが、少なくともここでトレーニングをストップした場合は、(後出の生成プラン例で示すように)、SAM の破壊に無理があるような初期位置関係(Fighter から見て、SAM が Target の逆向こうにある)の場合、SAM の破壊を強行するようなプランは生成していませんでした。
mission_type_2 (fighter.firing_range < sam.firing_range) の場合の、各プランナーの成功率は下図になります。成功率は、ほぼ100%でした。
##5.1 生成プラン例 Planner_1
始めに、SAMの破壊にインセンティブを与えていないプランナーのミッション生成例を示します。
以下の動画では、濃紺の丸が Fighter、半透明で濃紺の大きな円が Fighter の射程、赤の丸が SAM 配備位置 、半透明で赤色の大きな円が SAM の射程、ピンクの丸がTarget を表しています。Target が、Fighter の射程に入ったらミッション成功でエピソード終了です。
###5.1.1 S1
S1のタイプのミッションプランを生成した例を示します。Fighter が Target に向かう直線経路の近くに SAM がある場合、少しだけ寄り道をしてSAMを破壊した後に Target を撃破するプランです。SAM の破壊にインセンティブを与えていないにもかかわらず、なぜ寄り道をしてまで SAM を破壊するプランを生成するのかは、いろいろ考えたのですが判りません。不思議です。Target を破壊すると報酬がもらえるので、何かを破壊することが快感になるのでしょうか?ここは、興味深いポイントなので、その内、もう少し考えてみたいと思います。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 6.5
},
"sam_1": {
"alive": 0,
"firing_range": 5.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 20.0
},
"sam_1": {
"alive": 0,
"firing_range": 13.0
},
"target_1": {
"alive": 0
}
}
###5.1.2 S2
S2 のタイプのミッションプランの生成例です。SAMは無視して、直接Targetを撃破するプランを生成します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 14.5
},
"sam_1": {
"alive": 1,
"firing_range": 5.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 14.5
},
"sam_1": {
"alive": 1,
"firing_range": 12.5
},
"target_1": {
"alive": 0
}
}
###5.1.3 S3
Fighter搭載ウェポンの射程 < SAMの射程
なので、Fighter初期位置とTargetの間にSAMが位置する場合、SAMの射程のエンベロープを回り込むプランを生成する必要があります。この動きは、なんとなく人間っぽい気がします。
まずは、TargetがSAMの射程外で防護されていないミッション条件の場合です。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 10.0
},
"sam_1": {
"alive": 1,
"firing_range": 14.5
},
"target_1": {
"alive": 0
}
}
次に、TargetがSAMの射程内に位置し、SAMに防護されているミッション条件の場合を示します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 12.0
},
"sam_1": {
"alive": 1,
"firing_range": 20.5
},
"target_1": {
"alive": 0
}
}
##5.2 生成プラン例 Planner_2
以下の動画では、濃紺の丸が Fighter、半透明で濃紺の大きな円が Fighter の射程、赤の丸が SAM 配備位置 、半透明で赤色の大きな円が SAM の射程、ピンクの丸がTarget を表しています。
Targetよりも先にSAMを撃破し、その後Targetを撃破すると、最大額の報酬2が得られるようトレーニングしたプランナーです。
###5.2.1 S1
TargetとSAMを、ほぼ同時に捕らえられるようなミッション条件では、同時に同時に撃破できるようなプランを生成します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 20.5
},
"sam_1": {
"alive": 0,
"firing_range": 18.5
},
"target_1": {
"alive": 0
}
}
TargetとSAMを同時に撃破できないミッション条件では、先にTargetを回り込んでSAMを撃破してから、Targetを撃破するプランを生成します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 8.0
},
"sam_1": {
"alive": 0,
"firing_range": 4.5
},
"target_1": {
"alive": 0
}
}
Fighter 初期位置と Target の間に SAM が位置する場合でも、Target と SAM を、ほぼ同時に捕らえられるようなミッション条件では、同時に捕らえるようなプランを生成します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 20.5
},
"sam_1": {
"alive": 0,
"firing_range": 17.0
},
"target_1": {
"alive": 0
}
}
###5.2.2 S2
ミッションの初期条件が、Target よりも先に SAM を撃破することが、あまりにも非効率な場合(Target の真反対に SAM が位置するような場合)は、SAM を撃破せずに Target を撃破するプランを生成します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 21.0
},
"sam_1": {
"alive": 1,
"firing_range": 12.5
},
"target_1": {
"alive": 0
}
}
###5.2.3 S3
Fighter 搭載ウェポンの射程が SAM の射程よりも短い時は、回り込んで Target を撃破します。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 10.0
},
"sam_1": {
"alive": 1,
"firing_range": 16.5
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 7.5
},
"sam_1": {
"alive": 1,
"firing_range": 8.5
},
"target_1": {
"alive": 0
}
}
#6. プランナーの汎化能力(エージェントのロバストネス)
学習時に経験したミッション条件の外側(外挿する側)にあるミッション条件に対し、生成したプランの成功率を調べることで、Planner 1, Planner 2 のロバスト性を確認します。確認条件は以下の通りです。
-
fighter position: Fighter 初期位置の変動に対するプランナーのロバスト性を測るために、Fighter 初期位置を Target から、[90,100]km とて実験しました。(学習時は、[45,50] km です)。
-
heading error ±90 deg, ±180 deg: Fighter 初期ヘディングエラーの変動に対するはプランナーのロバスト性は、±90度のケースと、±180度のケースで確認しました。(学習時は、初期ヘディングエラー=0のみです。)
-
fighter position + heading error ±180 deg: Fighter の初期位置とヘディングエラーが同時に変動した時のプランナーのロバスト性を測りました。初期位置は Targetから [80,20km], ヘディングエラー変動は ±180 degです。
-
fighter position + heading error ±180 deg + sam position: さらに、SAM と Target 位置の離隔変動に対するプランナーのロバスト性を測りました。Fighterの初期位置は Targetから [80,20km], Fighterのヘディングエラー変動は ±180 deg、SAM位置は Targetから [20,50] km です。
以下に、planner 1 のfighter の射程 > SAM の射程
の場合のロンバスト性を示します。非常にロバストであることが判ります。
以下に、planner 1 のfighter の射程 < SAM の射程
の場合のロンバスト性を示します。非常にロバストであることが判ります。
以下に、planner 2 のfighter の射程 > SAM の射程
の場合のロンバスト性を示します。非常にロバストであることが判ります。また、SAM を撃破するプラン S1 の割合もあまり変動していませんでした。
以下に、planner 2 のfighter の射程 < SAM の射程
の場合のロンバスト性を示します。非常にロバストであることが判ります。
##6.1 生成プラン例 range robustness
私のエネルギー不足もあり、また、見ればわかると思いますので、説明は省略します(ゴメンナサイ)が、以下に、学習時に経験したミッション条件の外挿条件で生成したプランの例を示します。
以下の動画では、濃紺の丸が Fighter、半透明で濃紺の大きな円が Fighter の射程、赤の丸が SAM 配備位置 、半透明で赤色の大きな円が SAM の射程、ピンクの丸がTarget を表しています。Target が、Fighter の射程に入ったらミッション成功でエピソード終了です。
ミッション結果の類型:S1, S2, S3,F1, F2 の表を再録しておきます。
###6.1.1 Planner 1
6.1.1.1 S1
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 21.0
},
"sam_1": {
"alive": 0,
"firing_range": 19.0
},
"target_1": {
"alive": 0
}
}
6.1.1.2 S2
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 14.0
},
"sam_1": {
"alive": 1,
"firing_range": 11.0
},
"target_1": {
"alive": 0
}
}
6.1.1.3 S3
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 19.5
},
"sam_1": {
"alive": 1,
"firing_range": 21.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 11.5
},
"sam_1": {
"alive": 1,
"firing_range": 18.5
},
"target_1": {
"alive": 0
}
}
###6.1.2 Planner 2
6.1.2.1 S1
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 19.0
},
"sam_1": {
"alive": 0,
"firing_range": 18.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 17.0
},
"sam_1": {
"alive": 0,
"firing_range": 16.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 12.0
},
"sam_1": {
"alive": 0,
"firing_range": 9.5
},
"target_1": {
"alive": 0
}
}
6.1.2.2 S3
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 14.5
},
"sam_1": {
"alive": 1,
"firing_range": 20.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 9.5
},
"sam_1": {
"alive": 1,
"firing_range": 18.5
},
"target_1": {
"alive": 0
}
}
##6.2 生成プラン例 range + heading error + SAM location robustness
###6.2.1 Planner 1
6.2.1.1 S1
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 12.0
},
"sam_1": {
"alive": 0,
"firing_range": 4.0
},
"target_1": {
"alive": 0
}
}
6.2.1.2 S2
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 10.5
},
"sam_1": {
"alive": 1,
"firing_range": 4.5
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 21.0
},
"sam_1": {
"alive": 1,
"firing_range": 20.5
},
"target_1": {
"alive": 0
}
}
6.2.1.3 S3
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 20.0
},
"sam_1": {
"alive": 1,
"firing_range": 20.5
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 16.0
},
"sam_1": {
"alive": 1,
"firing_range": 17.5
},
"target_1": {
"alive": 0
}
}
###6.2.2 Planner 2
6.2.2.1 S1
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 8.0
},
"sam_1": {
"alive": 0,
"firing_range": 4.5
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S1",
"fighter_1": {
"alive": 1,
"firing_range": 20.0
},
"sam_1": {
"alive": 0,
"firing_range": 15.0
},
"target_1": {
"alive": 0
}
}
6.2.2.2 S2
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S2",
"fighter_1": {
"alive": 1,
"firing_range": 7.0
},
"sam_1": {
"alive": 1,
"firing_range": 4.5
},
"target_1": {
"alive": 0
}
}
6.2.2.3 S3
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 7.0
},
"sam_1": {
"alive": 1,
"firing_range": 18.0
},
"target_1": {
"alive": 0
}
}
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "S3",
"fighter_1": {
"alive": 1,
"firing_range": 7.5
},
"sam_1": {
"alive": 1,
"firing_range": 10.0
},
"target_1": {
"alive": 0
}
}
6.2.2.4 F2
失敗プランの例です。Fighter は、最初Targetを指向しているのですが、途中から SAM に吸い寄せられるように接近してしまい撃破されました。Fighter 初期位置が、外挿の大きな条件の時に、なぜ Target と SAM を取り違えるミスが発生するのでしょうか?これも興味深い謎です。
{
"mission_id": "mission_2",
"mission_condition": "m1",
"result": "F2",
"fighter_1": {
"alive": 0,
"firing_range": 10.0
},
"sam_1": {
"alive": 1,
"firing_range": 10.5
},
"target_1": {
"alive": 1
}
}
#7.まとめ
汎化能力が高いロバストなプランナーが学習できました。
#(その16)へ続く
(その16)では、3機のFighterでSAM1基を攻撃するミッション(但し、3機の内1機のみが、SAMの射程よりも長いウェポンを搭載)について学習します。
#過去記事へのリンク
- ランド研究所の「機械学習による航空支配」を実装する(その1):レポートのまとめ
- ランド研究所の「機械学習による航空支配」を実装する(その2):1次元問題について
- ランド研究所の「機械学習による航空支配」を実装する(その3): 1D simulator for GAN と Random mission planner の実装)
- ランド研究所の「機械学習による航空支配」を実装する(その4): conditional GAN の実装とトレーニング
- ランド研究所の「機械学習による航空支配」を実装する(その5):トレーニング結果の分析
- ランド研究所の「機械学習による航空支配」を実装する(その6):トレーニング・データの重要性と GAN の性能向上
- ランド研究所の「機械学習による航空支配」を実装する(その7):1D simulator for RL の実装
- ランド研究所の「機械学習による航空支配」を実装する(その8): Stable Baselines による強化学習
- ランド研究所の「機械学習による航空支配」を実装する(その9): 少し複雑な環境
- ランド研究所の「機械学習による航空支配」を実装する(その10):GAN / 強化学習プランナーの連携を考える
- ランド研究所の「機械学習による航空支配」を実装する(その11): 2次元問題の概要
- ランド研究所の「機械学習による航空支配」を実装する(その12): 2D simulator for mission_1 の実装
- ランド研究所の「機械学習による航空支配」を実装する(その13): 2D 問題 mission_1 を強化学習する
- ランド研究所の「機械学習による航空支配」を実装する(その14): Relative Observation による mission planner の能力アップ