先ほど以下のようなものがgoogleから発表されました。
https://developers.googleblog.com/en/conversational-image-segmentation-gemini-2-5/
ざっくりと読んでみた結果、どうやら抽象的な言葉でバウンディングボックスを指定することが可能のようです。(大人数がいる画像の中で、「座ってない人を抽出して」など)
シンプルで固定的な視覚的定義を持たない「損傷」、「散らかり」、「機会」といった抽象的な概念もセグメント化できるようです。
実際に試してみた
以下のURLを開くと、このような画面になります。
https://aistudio.google.com/app/apps/bundled/spatial-understanding?pli=1&showPreview=true
まずシンプルに2D bounding boxesでサンプル画像をsendしてみました
そうすると以下のように返ってきました
origami_foxなどかなり抽象度高い結果が返ってきました!
次に下にある「Label each one with: (optional)」部分に「Show only origami」と入れてみました
本当に折り紙のみバウンディングボックスが表示されました。すごいですね
他の画像でも試してみる
今度は実際に自分でアップロードして試してみました。今回は男女のフリー画像を使って「Show only man」と入れてみました。
ちゃんと分類されてますね。
まとめ
今回はとりあえずバウンディングボックス機能のみ使ってみました。まだ選択肢には色々とあったのでこれから試してみたいです。
googleブログの方には「散らかってる」などもっと抽象的な言葉にも対応していると書いてあったので活用の幅が広がりそうです。