どうも、カーブミラーです。
今回は、画像内のパネルを認識できない?問題が発生しましたので、その報告と改善です。
本記事は、ChatGPT(有料版)
で行なっております。画像は
あります。 あしからず。
ニュースはないので、
さっそく本題です。
今回は、
先日(2024/09/06)と
昨日(2024/09/07)の
Promptでは
画像内のパネルを
正しく認識できないという
問題が発生しました。
その報告と改善です。
【ChatGPT+Code Interpreter】で画像内の吹き出しを認識して、赤枠で囲みます。
【ChatGPT+Code Interpreter】で画像の吹き出しに日本語を入れます。
いくつか
別の画像を生成して
それに対して、
上記Promptを実施。
すべてOKでした。
さて、
スケッチブックやカンペも
試したし、大きなパネルに挑戦。
ついでだから、と
アニメスタイルから
実写的な画像にしました。
ところが、
範囲認識のPromptだと、
パネル全体を認識しません。
いやまぁ、
危惧はしていましたよ。
危惧は😅
アニメスタイルだと
平らで、白くなる板状のものでも
実写的な画像になると、
パネル全体が
同一の白ではなく、
光の当たり具合で
うっすら影になる
ということは。
このため、
パネルの半分ほどだけが
認識されたんですね。
人間の目では同じように見えても
人工知能からは、はっきりと
違いがわかるわけです。
さて、どうしよう?
そこで
ChatGPTさんに
“白の閾値は影を考慮して広げて”
と指示しました。
“閾値”とは、
Perplexity
閾値とは
「閾値」(いきち、しきいち)とは、ある基準を超えると変化が生じる境界となる数値のことを指します。これは、特定の反応や動作が起こるために必要な最小の刺激量や作用の大きさを表します。この概念は、生物学や物理学、ITなど多くの分野で使われています。
例えば、ITの分野では、電子回路における高電位と低電位の区別に使われ、プログラミングでは条件分岐の基準として用いられます[4]。また、生理学や心理学では、感覚受容器が反応を起こすために必要な最小の刺激量を指します。
「閾値」は英語で「threshold」と訳され、一般的には「限界」や「境界線」として理解されます。この値を超えると、システムや生体が異なる状態に移行するため、重要な指標となります。
簡単に言うと、
ここでは“白い領域”と
指示したわけですが、
これを“白っぽい領域”と
したわけです。
この指示に達するまで
紆余曲折あったのは
想像に難くないのでは?
オイラだけ?😅
さて、手順に行きましょう。
手順は
❶GPT-4oであることを確認
❷元画像をアップロード
❸Prompt入力
OpenCVを使用して、画像内の白い(白の閾値は影を考慮して広げておく)領域を検出し、その領域を輪郭として抽出してください。その後、検出された白い領域の中から最も大きい矩形を特定し、その矩形だけの周りに赤い枠を描画してください。
❹送信
❺ダウンロードリンクが表示
持っている手は
範囲外ですが
使用用途的には
大丈夫ですよね😅
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。