はじめに
この記事は Life is Tech ! Advent Calendar 2025 5日目の記事です。
どうも!Unityメンターのたーとるです🐢
最近、思ったことがありまして。
物体検出、するまでが大変すぎる。
……大学で画像認識の勉強をしていて、痛感したことです。
今日はそんなたーとるが見つけた小さなライフハックを共有していきます✨
アノテーションで日が暮れる
一般的な教師ありの物体検出では、画像内の『どこに何があるか』を何百枚も人間が教えてあげる必要があります。
この作業を「アノテーション」と言います。
気づいたら日が暮れています。
下の画像では、緑の看板を四角形で囲っています。
「なんとか自動化できないかな!」
全自動まではいかなくても、ある程度のところまでAIが頑張れるのではないかと思い、早速試すことにしました。
まずはGeminiでやってみる
最初に試したのが、最近アツいGeminiです。
マルチモーダルに強い彼、実はバウンディングボックス(物体を囲う四角形)の座標を出す機能があるみたいです。
しかし、試してみたところ精度が微妙でした。
たまに全く関係ないところを囲うなど、正直アノテーションツールとしては使い物になりません。
さらに推論に時間がかかるうえ、APIの無料枠もすぐになくなってしまい……。
そんな時に見つけたのが、YOLO-Worldです。
YOLO-Worldとは
テキストに基づいて対象物を検出できる物体検出モデルです。
たとえば「plastic-bottle」「shopping-mall-building」のような未学習のカテゴリでもテキストで指示するだけで推論可能です。
さらに、モデルをダウンロードしてオフラインで動作するため、通信不要でAPIコストもかからず高速です。
実践
基本的にはラベルがそのままプロンプトとなるので、できるだけ詳しく物体を説明する必要があります。
今回は
rectangular_traffic_sign, blue_color
traffic_light
で試してみました。
結果
なかなかいいんじゃないでしょうか!
青看板・信号、そこそこの精度で検出できてると思います。
ただ、一番下にある分離帯のチカチカ(ブリンカーライトと言うらしいです)も信号と捉えるのは想定外でした。
あとは人間が軽く細かい座標を調整すれば実用レベルですね。
Worldモデルの限界

最初はこんな感じで検出しすぎてしまいました。
(BOXが大量に重なってしまっています。)
これは、推論時の NMS(Non-Maximum Suppression) のしきい値を調整し、重複した枠を統合させることで改善できます。
また、個人的には色の区別が苦手な印象も持ちました。 「緑の看板」と指定しても「青の看板」も拾ってしまうんですよね。
ここはYOLO-Worldで物体検出した後に OpenCVで色判定 を行うなど、従来の画像処理と組み合わせるのが良さそうです。
おわりに
やはり細かいニュアンスだったりは人間にしか区別のつかないところがありますね。
「80点まではAIに任せて、残り20点を人間が仕上げる」というワークフローが今はちょうどいいのかもしれません。
AIの得意・不得意を見極めて、使いこなしていきましょ〜!


