学習に着手する前に必要になるツール

Last updated at 2025-02-15Posted at 2025-01-06

機械学習に着手することになった。
その時点で、必要になるツールがある。

その学習をチームとして成功させたてければ、これらのツールをチームとして共有して、開発スキルの上位標準化をする。

データの整合性のチェックツール

データの整合性は、データの整合性を保つための努力をすることなしに勝手に満たされていることはない。

データファイルのリスト作成ツール
データフォーマットの確認ツール
　例：jsonフォーマットの妥当性の確認
　自作ライブラリで出力したjsonファイルが、適切なjsonファイルになっていることを確認したかったら、Pydanticを使って読み取れることを確認することだ。
　他の巨大なアプリケーションの中では、ファイルフォーマットが間違えたときに、わかりやすいエラーメッセージを出してくれない。
画像ファイルが壊れていないこと
Git LFS で扱っているファイルが壊れている。
orientation情報による画像回転をしていないことを確認する。

データのマージツール

データのマージツールは以下の状況で必要になります。
・アノテーションを１名で実行するのではなくて、多人数で実行する場合
・元のデータが複数のフォルダに分かれている場合
・データを追加する場合

データフォーマットが共通している範囲で、ツールを共有化することです。

COCOのデータセットのデータ形式の場合には、データをマージするためのツールがいろんな場所に既に公開されている。
それらのうち、あなたの用途に適したものを選んで使うのがいいだろう。

pyodi coco merge coco_1.json coco_2.json output.json
https://gradiant.github.io/pyodi/reference/apps/coco-merge/

データの表示ツール

・データのアノテーションの有無がわかるツール
　どのデータにアノテーションがあって、どのデータにアノテーションがまだされていないのかを、手作業で確認してはいけません。
　フォルダの数が多かったり、階層的なフォルダにデータがあるときには、最新の状況を確認するのに手間取ってしまいます。
　

データの統計を表示できるツール

データの状況は統計で確認をとることです。
物体検出の場合、それぞれのカテゴリの物体の数がいくつあるか統計を取ります。
アノテーション結果があれば、それらを統計にまとめることは比較的かんたんなはずです。
一つ一つのアノテーションの情報を１行分のデータとして、
それをPandasのDataFrameにすることです。
そうすれば、集計作業とグラフ化の作業が楽にできます。