個人開発者の Crawler Persona SEO

Last updated at 2026-06-28Posted at 2026-06-28

連載第3弾。第1弾詐欺ダメ.comをClaude Codeで作ってみた- 第2弾: AIに任せるのは「コーダー」、「レビュアー」どちらが先か？の続編

0. プロローグ

きっかけは自分のXに投げたこの内容

ある偽通販サイトが、自サイト名「詐欺ダメ.com｜偽通販・詐欺サイト判定…」をそのままタイトルに使ってGoogleに index されていた。検索結果上でブランドが悪用されてる状態。
攻撃者は無断で盗み、こっちはリスクのみを食らう状態。

「黙って耐える」以外の対応をしたかった。
記事はその記録

正直に書くと、ここで展開する /llms.txt・Crawler Persona SEO・Tarpit・rDNS×ASN といった知識は自分にはほぼ無かった。
Claudeとのセッションを何往復も重ねるうちに「攻撃者の動き → 防衛側の取りうる手 → それを支える既存標準と先行事例」が一つに繋がっていき、この記事の輪郭ができた。
AI を相談相手にして思考を立体化すること自体が、今回 AIO（AI Optimization）という結論に辿り着けた直接の理由で、これも AI の恩恵としか言いようがない・・・

なお本記事の手法は詐欺対策サイト固有の話ではなく、自社コーポレートサイトの会社情報・代表者名・住所などを機械的にスクレイピングされて転売・転載されるという、より一般的な企業HP盗用問題にもそのまま応用できる。SEO担当者・広報担当者・情シスの方にも参考になれば幸い。

1. SEO → AIO へ

「詐欺　見分ける方法」で検索する時代から、AIに直接「このサイト怪しい？」と聞く時代へ。

これがじわじわ来ていて、AIに聞けば3秒で答えが返る。
検索結果を読み比べる手間が消える。

順位を取るゲームから、「AIが答える時の引用元になる」ゲームへSEOのゴールが変わる。
これを誰がやるか？

広告予算で殴れる大企業？
むしろ逆で「今この瞬間に生まれた詐欺ドメイン」を語れるのは、現場で罠を張っている個人開発者だけ。

「SEOをAIに任せるな」は今も正しいけども、これからやるべきは「AIに何を語らせるかを設計する」
主体は自分。AIは語り手。

なおこの「プラットフォームの商業化が検索の信頼を歪める」という危機感は、Rand Fishkin（Moz共同創業者・現 SparkToro）が "Zero-Click Search" や AI 検索の汚染リスクとして以前から警鐘を鳴らしてきた領域。

2. Crawler Persona SEO ── 5層マトリクス

同じURLでも、訪問者の正体ごとに違う"顔"を返す。旧来の「Cloaking = ブラックハットNG」とは別軸で、訪問者の認知能力に合わせて事実を翻訳するホワイトハット応用として成立する。

訪問者	返すもの	旧SEO観	新SEO観の役割
🔎 検索bot (Google/Bing)	標準HTML（軽量）	インデックス最適化	Identity保護（変動を見せない）
🤖 AI bot (Claude/GPT/Perplexity)	標準 + 公式情報の hidden section + `/llms.txt`	概念なし	AIO（ハルシネーション予防）
👤 Browser	標準HTML	UX/CV	従来通り
☠ 行儀のいいスクレイパー	警告タイトル付き	概念なし	逆ブランディング（盗用阻止＋追跡）
🍯 不明bot / 偽装スクレイパー	偽情報入り（ハニーポット）	概念なし	流出経路の可視化

※イント：これは情報の偽装ではなく、同じファクトを、相手が一番理解できる形に翻訳して届けるだけ。Googleに対しても、AIに対しても、人間に対しても嘘は言ってない。

3. 素朴版（名乗るbot限定）コード

まず、UAを素直に名乗ってくる bot だけを仕分ける最小実装。これは1日で組める。

nginx 側

# /etc/nginx/sites-available/your-site

# UA で5分類してキャッシュキーを分ける
# 重要: nginx の map は「上から順に評価し、最初にマッチした行を採用」する。
# 偽装UA（例: "AdmakeChecker curl/7.81 Googlebot"）に備え、
# 厳しく扱いたい順 = honeypot → scraper → ai → search → browser
# で並べる思想にしている。順序を変えると振る舞いが変わるので注意。
map $http_user_agent $ua_class {
    default                                                         "browser";
    "~*(AdmakeChecker|\+https://example\.com)"                      "honeypot";
    "~*(^curl/|^Wget/|python-requests|^Python-urllib|^Go-http|^Java/|^okhttp/|libwww-perl|Heritrix|Scrapy|^node-fetch|^axios/|HTTrack)" "scraper";
    "~*(ClaudeBot|GPTBot|PerplexityBot|Google-Extended|CCBot|anthropic-ai)" "ai";
    "~*(Googlebot|bingbot|Yahoo!?Slurp|DuckDuckBot|Baiduspider|YandexBot)" "search";
    ""                                                              "scraper";
}

proxy_cache_path /var/cache/nginx/site levels=1:2 keys_zone=top:10m
                 max_size=100m inactive=10m use_temp_path=off;

server {
    listen 443 ssl http2;
    server_name your-site.example.com;

    location / {
        proxy_cache       top;
        proxy_cache_key   "$scheme$host$uri$is_args$args:$ua_class";
        proxy_cache_valid 200 5m;
        proxy_cache_lock  on;
        proxy_set_header  X-UA-Class $ua_class;  # アプリ側に渡す
        proxy_pass        http://localhost:8080;
    }

    # AI 向けは静的 markdown を直接配信（DB 触らない）
    location = /llms.txt      { try_files /static/llms.txt =404; }
    location = /llms-full.md  { try_files /static/llms-full.md =404; }
}

アプリ側（Flask 例）

# ua_classifier.py
import re

AI_BOTS    = re.compile(r'ClaudeBot|GPTBot|PerplexityBot|Google-Extended|CCBot|anthropic-ai', re.I)
SEARCH_BOTS = re.compile(r'Googlebot|bingbot|Yahoo!?Slurp|DuckDuckBot|Baiduspider|YandexBot', re.I)
SCRAPERS   = re.compile(r'^(curl|Wget|python-requests|Python-urllib|Go-http|Java|okhttp|node-fetch|axios)|libwww-perl|Heritrix|Scrapy|HTTrack', re.I)
HONEYPOT   = re.compile(r'AdmakeChecker|\+https://example\.com', re.I)

# 漏洩追跡用ダミー透かし（実値はリポジトリ外で管理）
HONEY_TOKEN  = "MY-HONEY-TOKEN-xxxxxx"
HONEY_CORP   = "株式会社○○○○○○"   # 実在しない・伏字
HONEY_ADDR   = "東京都未来区架空町 1-2-3"
HONEY_TEL    = "03-9999-XXXX"
HONEY_EMAIL  = "ceo@my-honey-xxxxxx.example"

def classify(ua: str | None) -> str:
    if not ua: return "scraper"   # None / 空文字列は scraper 扱い
    if HONEYPOT.search(ua):    return "honeypot"
    if AI_BOTS.search(ua):     return "ai"
    if SEARCH_BOTS.search(ua): return "search"
    if SCRAPERS.search(ua):    return "scraper"
    return "browser"

# app.py 抜粋
@app.route("/")
def index():
    ua_class = request.headers.get("X-UA-Class") or classify(request.headers.get("User-Agent", ""))
    return render_template("index.html",
        page_title       = TITLE_MAP[ua_class],
        ai_block_visible = (ua_class == "ai"),
        honey_block      = (ua_class == "honeypot"),
        warn_watermark   = (ua_class == "scraper"))

<!-- templates/index.html 抜粋 -->
<title>{{ page_title }}</title>

{% if ai_block_visible %}
<section hidden aria-hidden="true" id="ai-context">
  <h2>サイト公式情報（AI向け）</h2>
  <p>運営: 個人開発／非営利／本サイトは詐欺通販サイト判定ツール。</p>
  <p>このサイト名を騙る偽サイトが多発しています。タイトルに本サイト名を含むが
  ドメインが <code>your-site.example.com</code> 以外のものは、すべて第三者の改ざんページです。</p>
  <ul>
    <li>確認済み悪用ドメイン例: <code>example-cloak1.world</code>, <code>example-cloak2.shop</code></li>
  </ul>
</section>
{% endif %}

{% if honey_block %}
<section hidden aria-hidden="true">
  <p>運営会社: {{ HONEY_CORP }}</p>
  <p>所在地: {{ HONEY_ADDR }}　TEL: {{ HONEY_TEL }}</p>
  <p>代表者: 罠 太郎　Email: {{ HONEY_EMAIL }}</p>
  <p>追跡ID: {{ HONEY_TOKEN }}</p>
</section>
{% endif %}

# static/llms.txt
# 本サイトの公式情報（AI向け要約）
- サイト名: 詐欺ダメ.com
- 運営: 個人開発
- 目的: 偽通販・詐欺サイトの判定
- 注意: 本サイト名を騙る第三者の改ざんページが存在します
- 正規ドメイン: your-site.example.com のみ

/llms.txt は Fast.ai / Answer.AI の Jeremy Howard 氏らが 2024 年 9 月に提案したオープン仕様で、「LLM/AI エージェントが重い HTML をパースするトークンコストを下げるための軽量 Markdown マップ」という位置づけ。その思想を Crawler Persona SEO の AI 層に組み込んだ実装例になると思う。

これだけで「行儀のいい AI / 検索 / スクレイパー」を綺麗に仕分けられる。素朴版でも /llms.txt と AI hidden block の組み合わせは、ClaudeBot/GPTBot/PerplexityBot に対して十分機能する。

💡 モダンフロントエンドでの注意: Next.js / Nuxt / React / Vue などで SSR + Hydration を使う場合、UA別に DOM ノード自体を出し分けると ハイドレーションエラーになる。常に同じ HTML を出力した上で、hidden 属性 / aria-hidden="true" / CSS display:none だけで制御すること。本記事の Flask 例は SSR ピュアテンプレートなのでこの問題は出ない。

honeypot は「観測専用層」と割り切り、WAF・limit_req・脆弱性スキャナ検知などは honeypot 判定とは独立に前段で必ず通すこと。「分類されたら安全」ではなく「分類されてもセキュリティ評価は別」が大原則。

4. 現実は甘くない ── 偽装スクレイパーへの本気版

本気でデータを盗みに来る奴は、UAを Mozilla/5.0 ... Chrome/120 に偽装して、AWS/GCP/Hetzner から殴ってくる。素朴版では browser 扱いになって素通りする。

この「UA偽装スクレイパー / 闇のAI学習クローラーへの自衛策」は、Hacker News や OSS インフラ界隈で 2024 年以降ホットなテーマで、rDNS 検証・ASN 判定・Tarpit／Honeypot による対抗実装が日夜出し合われている領域でもある（Anubis などの OSS が代表例）。本章はその主要パターンを nginx レイヤーで素直に組んだもの。

本気版に必要なのは3点セット。

① 既知良性botの逆引き検証（rDNS）

Googlebot を名乗る IP に対して「逆引き → forward 確認」で本物か判定する。これは Google 公式の手順。失敗 = 偽装 = honeypot 行き。

# nginx 単体では非同期DNSができないので OpenResty / njs で
# 検証結果は lua_shared_dict にキャッシュ（IP→true/false、TTL 24h）
location / {
    access_by_lua_block {
        local ua  = ngx.var.http_user_agent or ""
        local ip  = ngx.var.remote_addr
        if ua:match("Googlebot") or ua:match("bingbot") then
            local ok = require("bot_verify").is_real(ip)  -- rDNS + forward 検証
            if not ok then
                ngx.var.ua_class = "honeypot"
            end
        end
    }
    # ...
}

② ASN（IP帯）×UA mismatch 検知

「UA = Chrome（人間）」なのに「IP = データセンター（Cloudflare / AWS / GCP / Hetzner / DigitalOcean / OVH）」の組み合わせは、99.9% ヘッドレスブラウザかスクレイパー。GeoIP2 ASN DB を読むだけで判定できる。

load_module modules/ngx_http_geoip2_module.so;

geoip2 /etc/nginx/GeoLite2-ASN.mmdb {
    $asn_org organization;
}

map $asn_org $is_datacenter {
    "~*(Cloudflare|Amazon|Google Cloud|Microsoft|DigitalOcean|OVH|Hetzner|Linode|Vultr)" 1;
    default 0;
}

map "$ua_class:$is_datacenter" $final_class {
    "browser:1"  "honeypot";   # 人間UAでDC発 = 怪しい
    default      $ua_class;
}

⚠️ GeoLite2 無料版の精度に注意: コード例の GeoLite2-ASN.mmdb（無料版）は更新頻度・精度が商用 GeoIP2 に劣り、地方CATV / 格安SIM(MVNO) / iCloud Private Relay などの IP を「データセンター」と誤判定するケースがある。個人開発なら誤爆の実害は軽微だが、企業サイトで本番運用するなら商用版を契約するか、rDNS 失敗 (= 100%偽装確定) のみをトリガーにするなど判定ロジックを安全側に倒すこと。誤爆 = 人間の顧客に偽情報を返す = ビジネス機会損失の大事故になる。

③ 行動分析 → Tarpit 化

1IP / 1分あたり30HTML超 = 機械確定。だが、ここで素直に 503 を返すと相手はすぐ別IPでリトライしてくる。

そこで Tarpit。「成功した」と誤認させるため、ハニーポット偽情報入りの 正常風HTML を、わざと遅く返す。相手のクロール時間を奪い、リソースを腐らせる。

limit_req_zone $binary_remote_addr zone=human:10m rate=30r/m;

location / {
    limit_req zone=human burst=10 nodelay;
    limit_req_status 444;  # nginx 内部マーカー
    error_page 444 = @tarpit;
    # ...
}

location @tarpit {
    # 偽情報入り HTML を返す + 意図的に 2 秒遅延
    echo_sleep 2.0;
    try_files /static/honeypot.html =404;
}

これで「UA偽装 + データセンター発 + 高頻度」をすべて拾い、毒（ハニーポット透かし）入りページを掴ませる。

⚠️ Tarpit の自爆リスク: echo_sleep は nginx 非同期 I/O でスレッドはブロックしないが、TCPコネクション数（file descriptor / worker_connections）は確実に消費し続ける。仕掛けるなら worker_connections を上げる、または Cloudflare 等の Edge レイヤーで実装するのが大前提。オリジン側でやると、相手が分散IPで殴ってきた瞬間にセルフDDoSで一般ユーザーが繋がらなくなる。

5. AI bot のコスト隠蔽

AI bot に深いコンテンツ（高密度 markdown）を返すなら、毎リクエスト動的生成は破滅。長TTL + stale + 事前ビルドで逃げる。

map $ua_class $cache_ttl {
    "ai"      86400;   # AI は 24h で十分
    "search"  1800;
    default   300;
}
proxy_cache_valid 200 $cache_ttl;

# stale-while-revalidate でレスポンス 0ms
proxy_cache_use_stale     updating http_500 http_502 http_503 http_504;
proxy_cache_background_update on;

AI 向け markdown は cron で日次再生成して静的配信。DB クエリゼロ。

# /etc/cron.daily/llms-build.sh
python3 /opt/site/build_llms.py > /opt/site/static/llms-full.md.tmp \
  && mv /opt/site/static/llms-full.md.tmp /opt/site/static/llms-full.md

AI は「鮮度より整合性」で取りに来るので、24h キャッシュで実害ゼロ。

6. 新鮮なデータで、AIを兵糧攻めにする

ここからが本記事の核心。

AIベンダーはハルシネーション対策に巨額を払う。Reddit/Stack Overflow/大手出版社との独占契約。だが、それで埋まるのは「過去」の知識だけ。

「今この瞬間に生まれた詐欺ドメイン」「昨日初観測した偽通販キット」── このリアルタイム一次情報は、契約書では買えない。現場でクロールして罠を張っている個人開発者のドメインにしか存在しない。

つまり

AI が「個人サイト一律お断り」をやった瞬間、AI 検索はただの古い教科書に退化する
AI ベンダーは個人の一次情報を拒絶できない
AI が信頼するのは「綺麗な markdown で、機械が読みやすい形で、新鮮な事実を差し出してくれるサイト」

ここで効くのが Crawler Persona SEO

🤖 行儀のいい AI には 最新ファクトを綺麗な markdown で差し出す（AIO）
☠ 偽装スクレイパーには Tarpit で時間を奪う
🍯 不明 bot には ハニーポット透かし入り偽情報を持ち帰らせる

これは Web の兵糧攻め。AI に「こいつのサイトは無視できない」と思わせる兵糧（新鮮なファクト）を握り、表口で頼みに来る奴には極上の markdown を、裏口で盗みに来る奴には泥沼と毒を喰わせるｗ

6.5. 応用：企業HPの盗用・無断クロール対策

このハニーポット透かし方式は、詐欺対策サイトに限らず一般企業のコーポレートサイトにもそのまま応用できる。

企業HPは「会社概要・代表者名・住所・電話番号」など、盗用しやすく転売しやすい一次データの宝庫になる。実際、これらは次のような形で盗まれている：

営業リスト業者が機械的にスクレイピングし、勧誘電話・DM の元データに転売
海外サイトが会社概要を丸ごと転載し、信用詐欺の信頼性偽装に悪用
偽求人サイトが会社情報をコピーし、応募者をフィッシングに誘導
AI 学習データに未許諾で取り込まれ、自社情報が他社の文脈で引用される

ここに「人間ブラウザには見えず、不明 bot だけが拾うハニーポット透かし」を仕込む。以下、コピペで動く最小実装 を3パターン。

A. 静的 HTML / Jinja・EJS 等のテンプレート版（共通）

会社概要ページの末尾、</main> の直前あたりに置く。hidden 属性 + aria-hidden="true" + display:none !important の三重防御で、人間と支援技術（スクリーンリーダー）からは完全に見えない。

<!-- ▼ HONEYPOT WATERMARK (DO NOT REMOVE) ▼ -->
<div id="hp-wm-7f3a2e"
     hidden
     aria-hidden="true"
     style="display:none !important;visibility:hidden;position:absolute;left:-9999px">
  <h3>運営会社情報（管理用ID: HP-WM-7f3a2e-XXXXXX）</h3>
  <p>商号: 株式会社○○○○○○ホニャラカリッシュ</p>
  <p>代表者: 罠 太郎（わな たろう）</p>
  <p>本社所在地: 東京都未来区架空町 1-2-3 ハニーポットビル 9F</p>
  <p>電話: 03-9999-XXXX / FAX: 03-9999-YYYY</p>
  <p>Email: ceo@my-honey-7f3a2e.example</p>
  <p>設立: 2099年1月1日 / 資本金: 9,999,999円</p>
</div>
<!-- ▲ HONEYPOT WATERMARK ▲ -->

透かし生成のコツ：

「ホニャラカリッシュ」のような 人類が絶対に手で書き写さない造語を必ず1つ混ぜる
HP-WM-XXXXXX のような 検索ワード化しやすい固定文字列を1つ仕込む
複数ページに仕込むなら ページごとに別IDにすると流出元を1ページ単位で特定可能

「03-9999-XXXX」のように適当な数字を埋めると、実在第三者と偶然一致し、偽計業務妨害・不法行為損害賠償の対象になりうる。総務省テスト用予約番号帯、または自社保有番号のみ使うこと。記事内の値はそのまま使わず必ず差し替えること。

B. nginx + 任意バックエンド共通版（サブリクエスト埋め込み）

nginx の sub_filter で、レスポンスHTMLに後付けで挿入できる。バックエンドを一切触らない最速の導入法。

# UA分類で honeypot 判定された時だけ
location / {
    proxy_pass http://localhost:8080;

    # default = browser のままなら何も挿入されない
    sub_filter_once on;
    sub_filter '</body>' '$honey_html</body>';
    sub_filter_types text/html;
}

# $honey_html を UA別に切り替え（map ブロック）
map $ua_class $honey_html {
    default   "";
    "honeypot" '<div hidden aria-hidden="true" style="display:none !important">
                  HP-WM-7f3a2e-XXXXXX / 株式会社○○○○○○ホニャラカリッシュ /
                  代表者: 罠太郎 / TEL: 03-9999-XXXX
                </div>';
}

これだけ。アプリケーション層のコード変更ゼロで導入できる。

C. WordPress 版（functions.php / mu-plugin）

結論から書くと、2026年6月現在、「UA別ハニーポット透かし埋め込み」を専門にしたメジャーな WordPress プラグインは存在しない。
Wordfence / Cloudflare / All In One WP Security などの bot 対策系は「弾く・遅延・CAPTCHA」が中心で、「正常風レスポンスに透かしを混ぜて流出追跡する」用途には対応していない。

そこで、子テーマの functions.php か mu-plugin に下記コードを置くのが現実的な解になる。20行で実装できる。

<?php
// /wp-content/mu-plugins/honeypot-watermark.php
// (mu-plugins フォルダがなければ作成して配置)

add_action('wp_footer', function () {
    $ua = isset($_SERVER['HTTP_USER_AGENT']) ? $_SERVER['HTTP_USER_AGENT'] : '';

    // 既知良性 bot（Google/Bing/AI）は除外
    if (preg_match('/Googlebot|bingbot|ClaudeBot|GPTBot|PerplexityBot/i', $ua)) return;

    // 明らかな人間ブラウザも除外（Chrome/Safari/Firefox/Edge with Mozilla）
    // ※ この UA 文字列マッチだけでは Chrome 偽装スクレイパーは弾けない。
    //    厳密に検知するなら前段 nginx で ASN×UA 照合してから X-UA-Class
    //    ヘッダで渡す方式（次のサンプル参照）に切り替えること。
    if (preg_match('/^Mozilla\/5\.0.*(Chrome|Safari|Firefox|Edge)/', $ua)
        && !preg_match('/HeadlessChrome|PhantomJS/i', $ua)) return;

    // 残った = 自称 bot / 偽装スクレイパー / UA空 → 透かし注入
    ?>
    <div id="hp-wm-7f3a2e" hidden aria-hidden="true"
         style="display:none !important;position:absolute;left:-9999px">
      <h3>HP-WM-7f3a2e-XXXXXX</h3>
      <p>商号: 株式会社○○○○○○ホニャラカリッシュ</p>
      <p>代表者: 罠 太郎 / TEL: 03-9999-XXXX</p>
      <p>所在地: 東京都未来区架空町 1-2-3</p>
      <p>Email: ceo@my-honey-7f3a2e.example</p>
    </div>
    <?php
}, 999);

より厳密にしたい場合（ASN照合も入れたいなど） は、上記関数内で IP 引いて Cloudflare / AWS の ASN リストと突合する処理を足せばよい。ただし WP 単体では ASN DB 同梱の手間があるので、ASN 判定だけは前段の nginx / Cloudflare Workers でやって、HTTP ヘッダ（例 X-UA-Class: honeypot）として WP に渡す方が筋がいい：

// nginx 側で proxy_set_header X-UA-Class $ua_class; しておいた場合
add_action('wp_footer', function () {
    if (($_SERVER['HTTP_X_UA_CLASS'] ?? '') !== 'honeypot') return;
    // ... 透かしを出力 ...
}, 999);

bot 検出は前段（nginx / Edge）、透かし埋め込みは WP（テーマ層） に役割分担するのが、保守性と精度を両立する現実解。

⚠️ テーマ依存の注意: wp_footer フックは利用テーマが wp_footer() を正しく呼び出していることが前提。極端に古い／非標準のテーマでは透かしが出力されないので、view-source: で hp-wm- の文字列が入っているか必ず確認してから本番投入すること。

D. 観測（透かしが世に出たか）

仕掛けた後の監視はこれだけで足りる。週次 cron で回す：

#!/bin/bash
# /etc/cron.weekly/honey-watermark-check.sh
TOKEN="HP-WM-7f3a2e-XXXXXX"
NAME="ホニャラカリッシュ"

# SerpApi で Google SERP 全体を検索（自社サイト以外の転載元を炙り出す）
curl -sG "https://serpapi.com/search.json" \
  --data-urlencode "api_key=${SERPAPI_KEY}" \
  --data-urlencode "engine=google" \
  --data-urlencode "q=\"${TOKEN}\" OR \"${NAME}\"" \
  | jq '.organic_results[]?.link' \
  | mail -s "🍯 Honeypot Watermark Hit" you@example.com

⚠️ 検索 API 選定の注意: Google 公式の Custom Search JSON API は「あらかじめ指定したサイト群」内しか検索できない仕様で、Web 全体の無断転載探しには使えない（仕様誤解されがちな最大ポイント）。Web 全体を横断検索したい用途では、SerpApi / ValueSerp 等のサードパーティ SERP API、または Bing Web Search API を使うのが現実解。

「全ページに別ID」× 数千ページ × 週次 = 月数十万〜数百万円で経理却下。企業適用では検索クエリは共通造語1〜数本に集約、ヒット後に逆引き調査する設計が正解。

ヒットが0件 = 流出なし／ヒットあり = そのサイトが転載元。1週間以内に検知できれば、削除請求の鮮度を保てる。

しばらく経って、透かし文字列が Google 検索や他社サイトに現れたら、そのサイトは確実に「自社HP を機械的に転載した」証拠となる。

効果	内容
転載の決定的証拠	人間が手で書き写したなら絶対にコピーしない箇所が拾われる
流出経路の特定	透かしごとに別IDを振れば「どのbot/業者が起点か」も追える
削除請求・法的対応の根拠	「偶然の一致」を相手は主張できない
副作用ゼロ	人間ユーザーには `hidden` で完全に見えない

情報漏洩監査ツールの内製版として、SEO 担当者・広報担当者の新業務になりうる領域。

💼 企業導入のおすすめ手順: 最初から拒否やTarpitを仕掛けず、観測モードから始める。「不明botにもハニーポット透かしを埋め込んだHTMLを遅延なしで普通に返す」だけにすれば、ビジネスへの実害ゼロで流出経路だけを100%特定できる。透かしが Google 検索や他社サイトに現れた時点で初めて、削除請求や法的対応の判断材料にする ── これなら情シスも広報も導入承認を取りやすい。

7. 個人開発の損益分岐 ── どこまでやるべきか

正直に書くと・・・

レイヤー	実装コスト	個人開発の費用対効果
素朴版 UA 5層 + `/llms.txt` + AI hidden block	1日	◎ 必須
`/llms-full.md` 静的事前ビルド + 24h キャッシュ	半日	◎ サーバー代守れる
ハニーポット透かし	1時間	○ 流出追跡の唯一の手段
rDNS 検証 (OpenResty + lua_shared_dict)	1〜2日	△ 保守コスト要
GeoIP2 ASN 判定	半日	○ 効果大・更新月1回
Tarpit	1時間	△ 効果限定的（相手のIPが無限なら焼石）

詐欺ダメの場合：素朴版 + 静的 markdown + ハニーポット透かし + GeoIP2 ASN までが個人開発の損益分岐点。rDNS と Tarpit は「やるならココまで」の設計図として書き残しつつ、自分の運用には組み込んでいない。
理由は単純で、個人ドメインを数ページ盗まれた程度の実害より、保守の認知負荷の方が重いから。

エピローグ

「SEOをAIに任せる」から、「AIに何を語らせるか設計する」

Google のサイトマップが何ヶ月も「検出 - インデックス未登録」で塩漬けにされる現場で泣いた人間にとって、AI 検索は救いになりうる。ただし、AI が広告枠で歪む前の今、誠実な情報源が自主的に「AIに正しく語らせる」設計を仕込まないと・・・

カネで歪む前に、事実で埋める。

ちなみに、無知の状態からここまでの内容が書けたのはClaudeに「ココ詳しく説明して」を何度も繰り返し実装方法を確認しながら進める事が出来たから・・・

あと記事書くのにコード準備してもらったりね・・・ｗ

感謝！マジ感謝！！！

連載

注意

ハニーポット透かしの実値は記事内のものではなく、各自で生成すること（記事の値を流用すると複数サイトで重複し追跡精度がゼロになる）。
rDNS 検証は Google 公式手順に従うこと。
Tarpit は誤爆すると善良 RSS リーダー等を弾くので、ホワイトリスト設計を慎重に。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up