こんにちは。Preferred Roboticsの村瀬です。
今回は、今月(2024年4月)のソフトウェアアップデートから利用可能な転移学習に関する記事です。
カチャカ体内では、深層学習技術を用いた認識器が動いており、様々な障害物や、人・充電器・カチャカシェルフなど、タスクをこなすのに必要な対象を、ロバストに(照明や背景の変化などに対し頑健に)認識することができます。
カチャカAPIでも、Object Detectionのサンプルを用意しており、現時点では、人・充電器・カチャカシェルフ・ドアの4クラス分の認識結果を使うことができます。
ただ、皆さんのご利用環境で、もっと別のモノも認識させたい! という声を頂くことが多く(例えば社員からも カチャカが家のペットを認識できると嬉しいという要望がありました)
一方で 「別の計算機を用意したくない、カチャカ体内の計算資源だけで動いてほしい」 「実用的な速度で認識して」 「認識器を作る手間はなるべく小さく」 という意見もセットで出ていました。
このような要望にお応えするのに、転移学習は相性が良いです。この後詳しく説明していきます。
※古典的な手法による認識で十分そうであれば、ぜひ前回の記事も参考にしてみて下さい。こちらの方が簡単に試すことができます。
なぜ転移学習なのか
カチャカのObject Detectionモデルの学習には、例に漏れず、大量のデータを年単位で集めたデータセットが使われています。新しいクラスを学習させる為に、同規模のデータを取得・アノテーションを行い再学習を行うのは大変です。その代わりに、学習済モデルの中間層の特徴量を抽出し、利用します。
既に組み込まれた大量の知識を利用 することで、イチからやるよりも学習も推論の手間も少なくできる、というわけです。
学習済モデルはそのまま(重みに変化なし)で、抽出した特徴量を入力とした、新規の薄いニューラルネットワークを構築し、新しいクラスを推論できるよう学習させます(この方法が転移学習と呼ばれるものに属します)。
元のモデルに手を加えないため、人やシェルフなどそのまま認識できる能力をちゃんと残せて、また新規ネットワーク部分の層数は少なくできるので、学習に必要なデータ数、要学習時間はかなり小さく済みます。学習後、カチャカ体内に新規モデルを置き利用しても、新たなメモリ消費は非常に少なく、推論(認識)の速度も出せます(※)。
※画像を取得してから最終的な結果を得るまで、おおよそ元モデルの推論時間+新モデルの推論時間となるため、多少の遅延は発生します
カチャカにおける転移学習の概要
※転移学習をとにかく試したい!という方はこの章は読み飛ばしても構いません。
カチャカにおける転移学習をもう少し詳しく解説します。
カチャカのObject Detectionモデルは、FCOSがベースになっています。論文の詳細は省きますが、その出力は、特徴グリッド毎に、分類クラス別スコア / 物体の領域(Bounding Box)に変換できる4次元ベクトル / 物体の中心に近い程値が大きくなる"Centerness"と呼ばれるものの3種類となります。
また、前半部がFPN(Feature Pyramid Network)であり、各解像度毎の特徴マップから、2種類のHead(Classification HeadとRegression Head)に接続され、上述の最終出力につながります。
カチャカにおいては、FCOSの構造はそのままでなく、NAS (Neural Architecture Search)を利用し、限られた計算資源内で、精度を下げずに推論時間を極力短くできるネットワーク構造を探索したものを使っています。
一例として、論文では引用図のように、FPNから5層分の特徴マップが作られますが、カチャカではこれが3層分になっています。
転移学習用の中間層出力として、この3層分のFeature Pyramid Networkの出力がAPIで取得できます。
この出力を入力とした、新規クラス用の推論を行う小さなHeadを学習させます。今回サンプルとして用意したHeadの実装はこちらになります。スコア用のHead(コード上はTowerと名付けています)と物体領域用のHeadがあり、非常にシンプルで小さな構造になっているのがご覧頂けると思います。
また各層で重みは共有なので、学習パラメータ数は非常に少なくなっています。
このHeadを用いたモデル全体の実装はこちらになります。元のFCOSと同様に、スコア、物体の領域、CenternessをHeadが出力し、そこから最終スコア(元のスコアとCenternessを掛けた値)が高い推論結果を抽出する後処理が含まれています。
学習方法
ここからは実際に転移学習を行う方法について説明していきます。
まず、以前の記事 を参考に、Jupyter Notebookにサンプルコードとkachaka-apiのダウンロードまでを実施して下さい(※2024年4月10日以前にサンプルコードをダウンロードした場合は、最新のコードとkachaka-apiに更新する必要があります)。また、Playgroundにsshでログインする を実施頂き、パソコンからカチャカにsshログインできる状態にして下さい。
次に学習させたい対象物を用意して下さい。
前回の記事で取り扱った古典的な手法だと認識が難しい、柔軟物かつ特徴点も出しづらい、紐をひとまず対象にしてみます。
データ抽出
まずは中間層出力を取り出したデータセットを作成していきましょう。
Jupyter Notebookでkachaka-api/python/demos以下にあるsave_object_detection_features.ipynbを開いて下さい。
対象物をカチャカのフロントカメラの前に置き、上部メニューの「▶▶」をクリックして下さい。
以下のように撮影したカメラ画像が表示されます。
また、demos以下にdataディレクトリが作られ、中身を覗くと"0.pkl" / "0.png"というファイルが存在することが確認できます。それぞれ中間層出力と画像ファイルに該当します。
どんどんデータを増やしていきましょう。
対象物の置き方や、カチャカの位置(あるいは背景)を変えるなどして、最後のセルのみ再度実行していきましょう(最後のセルをクリックした後、上部メニューの「▶」をクリック)。dataディレクトリ以下に、連番でファイルが保存されていきます。
アノテーション
ある程度データが集まったら、今度はアノテーションをしていきます(物体のクラスラベルと、領域の正解データを作成する作業です)。
アノテーションと転移学習自体は、お手元のPCで実施して頂く手順になっていますが、リッチなGPUが搭載されているものを用意して頂く必要はなく、手頃なスペックのCPUで十分学習させられます。pythonやdockerが動く環境は用意して頂く必要があります。
アノテーションツールは様々ありますが、サンプルとしてCOCO annotatorを使った手順を用意しています(※)。
※お好みのアノテーションツールに対応させて貰うことも難しくないと思います。
COCO annotatorはdockerで簡単に立ち上げられるようになっています。
git clone https://github.com/jsbroks/coco-annotator.git
# ubuntu 20.04標準のdockerバージョンで実施する場合: 最新dockerバージョンでは"docker compose up"
cd coco-annotator && sudo docker-compose up
ブラウザベースのツールになりますので、上記実行後、お好みのブラウザでアクセスして下さい(ポート被りが無ければデフォルト5000なので、http://localhost:5000/ でアクセスできると思います)。
適当なアカウントを作成し、
ログインしたら"Create"でデータセットを作成します。今回は"travel_rope"というカテゴリを追加してみます(複数クラスの学習をさせたい場合は、その分だけ追加して下さい)。
以下のようにデータセットが作成され、先程ダウンロードしたcoco-annotatorディレクトリ以下に、"datasets/(データセット名)" というディレクトリが作られています。
このデータセット名ディレクトリ以下に、先程カチャカ体内で生成したデータをコピーします。
# 先程sudo実行した場合はディレクトリにコピーできる権限を与えておく
sudo chmod 777 coco-annotator/datasets/(データセット名)/
# コピー
scp -P 26500 kachaka@(カチャカのIPアドレス):kachaka-api/python/demos/data/* coco-annotator/datasets/(データセット名)/
コピーしたデータが反映されたら、順次アノテーションを実行して下さい(もしコピーしたデータがなかなか反映されない場合は、少し時間を置いてdockerコンテナを立ち上げ直すなど実施してみて下さい)
BBox Toolを使って以下のように領域を指定していきます。
アノテーションが終わったら、"Export COCO"で、対象カテゴリを指定し、jsonファイルを出力して下さい。(データセットディレクトリの.exports以下にファイルが生成され、適切にエクスポートできていると”annotations”のキーが存在します)
学習
いよいよ学習を行う段階です。
まず学習用スクリプトなどを含んだカチャカ転移学習レポジトリをお手元のPCにダウンロードし、環境を構築します。
git clone https://github.com/pf-robotics/kachaka-transfer-learning
# 必要なモジュールをインストール
cd kachaka-transfer-learning
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
学習を100エポック程度回してみましょう。私の手元PCのCPUはIntel Core-i7 11世代ですが、数十秒程度で終わります。
./train.py --dataset (coco-annotatorディレクトリへのパス)/datasets/(データセット名)/ --epoch 100
評価用スクリプトで、結果画像(カメラ画像にクラスラベルとBounding Box、スコアが重畳表示されたもの)を出力できます。本来はテストデータセットを用意するべきですが、ひとまず学習に使った画像をそのまま与えてみます。
./eval.py --checkpoint latest_checkpoint.pt --indir (coco-annotatorディレクトリへのパス)/datasets/(データセット名)/ --outdir output
とりあえず学習は出来ていそうなことが確認できました。
カチャカ体内で認識を実行
学習がうまくいったら、今度はカチャカ体内で動かしてみましょう。
以下を実行し、onnxファイルを生成します。
./create_onnx.py --checkpoint latest_checkpoint.pt --out predictor.onnx
生成されたonnxファイルをカチャカ体内のdemos以下にコピーします。
scp -P 26500 predictor.onnx kachaka@(カチャカのIPアドレス):kachaka-api/python/demos/
Jupyter Notebookに戻ってrun_custom_object_detection.ipynbを開き、上部メニューの「▶▶」をクリックして下さい。
カチャカ体内で、作成した新規モデルを使って対象物の認識をしている様子を確認することができます。
まとめ
転移学習を使って、カチャカに新しい対象を認識させることが出来るようになりました。認識のロバスト性は、どういうデータを用意するかで決まってくるので、認識が安定しない場合は、色々環境や対象物の置き方を変えてデータを追加してみて下さい。
本記事では1クラスのみ追加しましたが、複数クラスの追加もサポートしています(coco-annotatorでカテゴリを追加しアノテーション、また各スクリプトで--class-num
指定)。スクリプトは他にも様々なオプションを用意しています(--help
で確認できます)。
モデル自体も、層を増やすなど色々カスタマイズの余地があると思います。
是非カチャカを賢くするのに役立てて、カチャカのタスクの幅を広げる一助になれば幸いです。
読んで下さりありがとうございました。