DINOv2で作る“なんでも似てる画像検索”──Colabで超カンタン実装

Posted at 2025-08-18

はじめに

最近話題の自己教師あり学習モデル DINOv2 を使って、画像から似ている画像を探す検索システムをGoogle Colab上で動かしてみました。
文字で検索するのではなく、1枚の画像を入力（クエリ画像）すると、その特徴に近い画像を自動で見つけてくれる仕組みです。

DINOv2とは？

Meta（旧Facebook）が開発したビジョン基盤モデルで、自己教師あり学習によって事前学習されています。大きな特徴は次の通りです。
・汎用的な画像特徴量を抽出できる
ファインチューニングなしでも高品質な特徴ベクトルを生成可能。分類・検索・セグメンテーションなど幅広いタスクに使えます。
・ラベルなしデータでも学習できる
自己教師あり学習なので、大量の未ラベル画像を活かせます。
・マルチスケールでの利用が可能
軽量モデルから巨大モデルまで揃っており、Colabのような環境でも試せます。
・密な特徴（dense features）に強い
画像の部分ごとの表現が得られるので、単なる分類だけでなく、領域分割や類似領域探索にも応用可能です。

手順

1. 環境準備
Colabに必要なライブラリをインストールします。
PyTorchやtimm、FAISSなどをまとめて入れることで、環境競合のエラーを避けました。

!pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
!pip install -U timm faiss-cpu pillow tqdm

2. 画像のアップロード
ローカルから好きな画像を複数枚選んでColabにアップロードします。

from google.colab import files
import os

IMG_DIR = "/content/images"
os.makedirs(IMG_DIR, exist_ok=True)

uploaded = files.upload()
for filename, data in uploaded.items():
    with open(os.path.join(IMG_DIR, filename), "wb") as f:
        f.write(data)

3. DINOv2モデルをロード
Colabでも扱いやすい vit_base_patch14_dinov2 を利用しました。これで画像をベクトル（特徴量）に変換できます。

import timm, torch
device = "cuda" if torch.cuda.is_available() else "cpu"

model = timm.create_model("vit_base_patch14_dinov2.lvd142m", pretrained=True, num_classes=0).to(device).eval()

4. 画像をベクトル化
アップロードした全画像をまとめて埋め込み（特徴ベクトル）に変換しました。

from PIL import Image
from torch.utils.data import Dataset, DataLoader
import torch

class ImgDS(Dataset):
    def __init__(self, paths): self.paths = paths
    def __len__(self): return len(self.paths)
    def __getitem__(self, i):
        return transforms(Image.open(self.paths[i]).convert("RGB")), i

ここで得られたベクトルをFAISSに登録します。

5. FAISSで検索インデックスを作成

import faiss
vecs = embs.numpy().astype("float32")
index = faiss.IndexFlatIP(vecs.shape[1])
index.add(vecs)

6. クエリ画像で検索！
ここが一番面白いところです。
1枚の画像（クエリ画像）を入力すると、似ている画像がランキング形式で表示されます。

search_by_image("query.jpg", topk=5)

実際の結果

クエリに猫のイラストを入れると、猫の写真が上位にヒット！
今回のクエリ画像↓

【上位ヒット】↓

score=0.066
score=0.038

感想

・Colab上で数十行のコードで画像検索が完成するのは驚き。
・DINOv2はファインチューニングなしでも「人間の直感に近い」特徴をうまく捉えてくれます。
・商品検索やデータ整理にすぐ応用できそう。
・さらに発展させるなら、CLIPのようなテキスト検索を組み合わせるのも面白いです。

まとめ

・DINOv2は自己教師あり学習で学習した強力なビジョン基盤モデル。
・特徴抽出が強力で、分類・検索・領域分割などマルチに使える。
・Colabでも簡単に試せて、画像検索システムを作るのに最適。

フリーランスエンジニアです。
AIについて色々記事を書いていますのでよかったらプロフィールを見てみてください。

もし以下のようなご要望をお持ちでしたらお気軽にご相談ください。
AIサービスを開発したい、ビジネスにAIを組み込んで効率化したい、AIを使ったスマホアプリを開発したい、
ARを使ったアプリケーションを作りたい、スマホアプリを作りたいけどどこに相談したらいいかわからない…

いずれも中間コストを省いたリーズナブルな価格でお請けできます。

お仕事のご相談はこちらまで
rockyshikoku@gmail.com

機械学習やAR技術を使ったアプリケーションを作っています。
機械学習／AR関連の情報を発信しています。

X
Medium
GitHub

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

DINOv2で作る“なんでも似てる画像検索”──Colabで超カンタン実装

はじめに

DINOv2とは？

おすすめの用途

手順

実際の結果

感想

まとめ