More than 1 year has passed since last update.

ChatGPTでAIデータセットのアノテーションをする

Last updated at 2024-03-17Posted at 2024-03-17

アノテーションは大事だけど、コストがかかる

AIをビジネスや社会に活かすには、データセットが重要である。
データセットは競争力であり、またAI活用の壁でもある。
AIモデル自体は広くフリーで公開されていて、使い方も難しくない。
では何がビジネスの競争力の差や社会導入の壁となるかというと、計算力（GPU）とデータセットである。
一般公開されているデータセットはそれほど多くなく、実際にAIをビジネスや社会の特定のタスクに使おうとすると、そのためのデータセットを作ることが必須となる。
しかしデータセットのアノテーション（集められたデータをAIに教える用にラベルをつけたり、オブジェクトの位置を数値化したりする作業）は多くの場合、地味で時間とコストのかかる人力作業である。
人間の判断によってデータを分別する（そしてその結果をAIに教えて同様の能力を与える）のだから、人間の手がかかるのは当然のことではある。
（これをうまく行えている事例はあまり公開されていないように思える。）
しかし、ある特定のinput-outputにおいては人間並に目的に適合できるChatGPTによって、例えば画像判別データセットのアノテーションが可能である。

ChatGPTによる画像判別データセットのアノテーション　ケース・スタディ

今回は、画像がパリの風景か京都の風景かを仕分けてもらう。

まあこれぐらいなら人間がやっても簡単でしょ。と思うかもしれないが、例えばこれが２万枚とかになってくると流石に仕分けがめんどくさい。それにこれは例で、実際は十クラス以上に分類しないといけないこともあるだろう。

ということでめんどくさいことはChatGPTにやってもらおう。

やり方

openaiライブラリのインストール。

pip install openai

とりあえず1枚仕分けてもらう。

この画像の風景は次のどちらの都市のものですか?　Paris, Kyoto, 都市名のみ英語一言で答えてください。どちらにも分類されない場合は、otherと答えてください。都市名の先頭は大文字にして、ピリオドは含めないでください。

というメッセージをgpt-4-visionのAPIに送ります。

import base64
import requests

text = "この画像の風景は次のどちらの都市のものですか?　Paris, Kyoto, 都市名のみ英語一言で答えてください。どちらにも分類されない場合は、otherと答えてください。都市名の先頭は大文字にして、ピリオドは含めないでください。"
# OpenAI API Key
api_key = "Your_API_Key"

# Path to your image
image_path = "paris0.jpg"

def ask_gpt(text, image_path, api_key):
  
  with open(image_path, "rb") as image_file:
    base64_image = base64.b64encode(image_file.read()).decode('utf-8')

  headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {api_key}"
  }

  payload = {
    "model": "gpt-4-vision-preview",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": text
          },
          {
            "type": "image_url",
            "image_url": {
              "url": f"data:image/jpeg;base64,{base64_image}"
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }

  response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)
  city = response.json()["choices"][0]["message"]["content"]
  
  return city

city = ask_gpt(text, image_path, api_key)
print(city)

Paris

「どこの都市ですか？」などとざっくり聞いても返してくれますが、画像分類タスクのラベル分けに使いたいので、選択肢から一言で返してもらいます。

たくさん仕分けてもらう

画像ディレクトリの中身に対してgptへの質問をループし、結果に応じて画像をフォルダ分けします。

import os
import shutil

image_dir = "images"
image_list = os.listdir(image_dir)

for image_file in image_list:
  image_path = os.path.join(image_dir, image_file)
  city = ask_gpt(text, image_path, api_key)
  
  dest_dir = city
  dest_path = os.path.join(dest_dir, image_file)
  shutil.move(image_path, dest_path)