【ChatGPT＋Code Interpreter】で画像内の吹き出しを認識して、赤枠で囲みます。

Last updated at 2024-09-08Posted at 2024-09-06

　どうも、カーブミラーです。

　今回は、画像内の吹き出しを認識して、赤枠で囲みます。

本記事は、ChatGPT（有料版）
で行なっております。画像は
あります。　あしからず。

　まずは、ニュースです。

　OpenAIは
　　高額なサブスクリプションプランを
　　　検討しているそうです。
　　　　ChatGPT研究所ポスト

　GPT-Nextは
　　それだけ能力が
　　　高いのでしょうね。

　さて、本題です。

　今回は、
　　画像内の吹き出しを
　　　認識して、赤枠で囲みます。

　ChatGPTに
　　ふつうに指示しても
　　　それなりの位置や大きさで
　　　　赤枠を描いてくれます。

　しかし、
　　確実な形を求めているのに
　　　こんな精度では
　　　　いただけません。

　なんとかできないかと
　　ずっとあれこれやってきました。

　ようやく
　　形になりましたので
　　　記事にしました。

　今回使用したのはこちら。
　　DALL-E3で描いた画像です。
　　　吹き出しがありますね。
　　　　これを認識してもらうわけです。

　手順は
　❶GPT-4oであることを確認
　❷画像をアップロード
　❸Prompt入力

吹き出しに赤枠Prompt

OpenCVを使用して、画像内の白い領域を検出し、その領域を輪郭として抽出してください。その後、検出された白い領域の中から最も大きい矩形を特定し、その矩形の周りに赤い枠を描画してください。

　❹送信
　❺ダウンロードリンクが表示

　これで作成されたのがこちら。

　ChatGPTさんに
　　このPromptの説明を
　　　してもらいます。

ChatGPT

　いやぁ、
　　長かったです(^_^;)qﾌｷﾌｷ

　“手法を変える”ように
　　指示したことで、
　　　うまく行きました。

　これでようやく
　　次の段階に進めます。

　みなさんの
　　作品制作の糧に
　　　なれば、幸いです。

　今回は、ここまで。