概要
データセットを作った後に「うわ、、このデータは削除しておきたい、、、」となったので、データを編集する方法について調べ実際にデータを編集することができたので、簡単にですがその方法について記載します。
この記事が誰かの助けになれば幸いです。
参考させていただいた記事:
環境
Linux 22.04
LeRobot so-101を模倣学習するためのデータセットを作成し、Hugging Faceにデータをアップロードしていることを前提としています。
「え、データセットに手が映ってますやん」
データセットを作成した後に、エピソードを確認していたら、ワークをセットしている映像が撮れてしまっていることに気付きました。
50個分のエピソードを作ったのでまた最初からはやりたくない、、、
指定したエピソードを削除する方法ってないんだろうか、助けてChatGPT!
ChatGPT「GUIでエピソード削除出来るで」
ChatGPTに相談して調べてもらったら、「phospho」を用いてデータセットを編集できることがわかりました。
インストールする必要があったので、下記コマンドでインストールしました。
curl -fsSL https://raw.githubusercontent.com/phospho-app/phosphobot/main/install.sh | sudo bash
下記コマンドで実行できます。
phosphobot run
実際に修正して改めてデータセットをアップロードしてみた
データセットはwebブラウザ上で編集することが可能です。
接続先は「phosphobot」を実行した際に、ターミナル上に
Uvicorn running on http://0.0.0.0:xxxx
等記載されていると思いますので、http以降をブラウザ上にコピペ。
下記のようなダッシュボードが見られると思います。
最初に、Hugging Faceに置いてあるデータセットをダウンロードするため、tokenを覚えさせておきます。
左のタブにある「Admin Configuration」をクリックすると、下記ページに飛ぶので、tokenを保存してください。
次に、左タブの「Browse Datasets」をクリックし、右上の「Add dataset from hub」をクリックしてください。
そうすると下記の画像がでてきますので、修正したいデータセットをダウンロードしてください。
次に、ダウンロードしたデータセットを開いて修正を行います(今回は必要のないエピソードを削除しました。)
次に、修正を加えたデータセットを修復する作業が必要なので、データセットを置いている階層に戻って、修正したデータセットにチェックを入れます。
そうすると下記画像のように「Repair Selected Datasets」がクリックできるようになるので、クリックしてください。
Hugging Faceにこのままアップロードしたいのですが、いまいちやり方がわからなかったので、一度修正したデータセットをダウンロードして、ターミナル上のコマンドでアップロードしました。
huggingface-cli upload ${HF_USER}/<データセット名> ~/.cache/huggingface/lerobot/${HF_USER}/<データセット名> --repo-type dataset
改めてデータセットがちゃんと修正されてアップロードできたかVisualize Datasetから確認してみると、無事に手が映っていたデータが削除されていました!!
終わりに
Lerobotのデータセットのエピソードを削除する方法について今回は触れましたが、データセットを統合したり分けたりすることが出来るそうなので、必要に応じて活用できそうです。
このデータセットを用いてまだ学習を行えていない(修正方法が間違ってたらマジですみません。。。
)ので、早々に進めたいのですが理解できていないことも多く、少しずつ進めています(google colabってなに?のレベル感です)。
ちゃんと学習まで進んだら改めて記事を投稿しようと思います。