More than 1 year has passed since last update.

過学習を実感(Jetbot)

Posted at 2022-05-24

内容

1. はじめに

Omniverse関連ですとZennに記事が豊富なのですが・・・
- まだ既存の記事のレベルに載せる勇気と内容ではない
- やっぱり社内の教育資料として気軽に見られるようにしたい

*参照サイト

*こちらのsatahiさんの記事を参照した方が本家リファレンスより理解しやすいかと
思います。

2. 過学習の罠にはまる

*いきなり話（チュートリアル）が飛んでいますが、Advancedの10を実行していました。
簡単にいうと目標物を検出してそこまで到達する（適宜目標物は移動してやり直す）ものです。

* 余裕こいてVSCodeで対象のTrain.pyの学習回数を編集
* 500Kを500万回と誤解（よく考えると50万回なんですよね）

3. 500万回トレーニング

*CPU(Ryzen5)・メモリ(32GB)はほぼ同じぐらいのスペック、
GPUをRTX2060と3090で実施してみました。

RTX2060
- 結果ーー中心でスピンしたまま動かず
RTX3090
- 結果ーー中心でスピンしたまま動かず

Train.py

policy_kwargs = dict(activation_fn=th.nn.Tanh, net_arch=[16, dict(pi=[64, 32], vf=[64, 32])]) # Policy params
policy = CnnPolicy
total_timesteps = 5000000
#本当は500000です・・・

どれくらいでおかしくなりだすのか？
- 100万回まではなんとか目標まで進んでいましたが、
  　150万回以上はスピンマシンと化しました。
- 500K、つまり50万回でようやくチュートリアル通りに動いてくれました。
  　　　100万回も目標に行くにはいくんですけど、なにか挙動があやしいです。

4. 参考(おかしい結果のログ)とツールのリンク集

*Tensorboardで出力した結果(300万回）を貼っておきます。
* なお、2060と3090で速度に劇的な差はなく、共にGPUは2~3GB程度メモリを使っていました。

*他のエディタでもできますが、Omniverseが推奨しているので、リンクを。

*肝心のOmniverseのダウンロード

5. おわりに

*まずは基本に忠実にいきましょう。
* 人間と一緒で勉強のし過ぎはよくない。

*PCのスペックはかなり重要です。
* 今回の失敗前にSkylake世代＋16GBメモリでチャレンジしました。
* そもそもOmniverseの起動も一生懸命で必要なコンポーネントをポロポロこぼしていました。
　　　≒どうも、正常にインストールされない。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up