Crawlit：AIワークフローのための無料・セルフホスト型Webクローラー

Posted at 2026-06-26

はじめに

2026年、AIエージェントはどこにでもあります。彼らはウェブ上でリサーチ、分析、タスクの自動化を行います。しかし問題があります：ほとんどのWeb収集ツールはページごとに課金するため、使えば使うほどコストが膨らみます。

Crawlitはその方程式を変えます。無料のオープンソース、セルフホスト型Webクローラーで、どんなウェブサイトもクリーンでLLM対応のMarkdownに変換します。1コマンドで起動、ページごとのコストはゼロ、完全にあなたのインフラで動作します。GitHubでソースコードを確認できます。

AIエージェントにとって可観測性が重要な理由

2026年のAIエージェントの世界は 可観測性（Observability) によって定義されています — 自律的なエージェントの行動を追跡、評価、介入する能力です。本番環境のエージェントは、ツール使用チェーン、エージェント間のハンドオフ、検索ステップ、分岐する意思決定パスを含むマルチステップワークフローを実行します。

しかし、エージェントはアクセスできないものを観察できません。CrawlitはAIエージェントの可観測性を可能にするデータ層を提供します。エージェントが以下を必要とするとき：

50のウェブサイトにまたがる競合他社の価格調査
複数のソースにまたがるドキュメント変更の監視
分析と意思決定のための構造化データ抽出

Crawlitは、観察し行動するために必要なウェブデータへの信頼性が高く、コストフリーのアクセスを提供します。

Crawlitの特徴

1. 真に無料・オープンソース

CrawlitはMITライセンスです。ページごとの料金もなく、APIクレジットもなく、使用制限もありません。あなたがホストし、あなたが所有し、あなたが制御します。

他の代替手段と比較してください：

Firecrawl：無料枠は月1,000ページまで、その後月額16〜599ドル
Jina Reader：すぐに積み上がる従量課金モデル
Apify：月額39ドルから、追加使用料がかかる
Crawlit：永久に0ドル

月100,000ページの場合、Firecrawlでは年間約4,000ドルかかります。Crawlitなら？何もかかりません。

2. Firecrawl互換API

すでにFirecrawlを使っていますか？移行は簡単です。Crawlitは同じAPI形状を実装しています：

# 単一ページを取得
POST /v1/scrape

# 複数ページをクロール
POST /v1/crawl

# サイト上の全URLをマッピング
POST /v1/map

同じリクエスト/レスポンス形式。同じ出力品質。異なる価格タグ。

3. AIエージェントのために構築

ここでCrawlitが面白くなります。新しいcrawlit-skillにより、AIコーディングアシスタントがCrawlitを直接制御できます。

対応ツール：

Claude Code
OpenAI Codex
OpenCode
任意のMCP互換AIツール

AIエージェントにこう言わせることを想像してください：

「https://docs.example.comからすべてのドキュメントを取得して」
「これら5つの競合ウェブサイトから価格情報を取得して」
「このECサイトから商品名と価格を抽出して」

AIエージェントがあなたのウェブリサーチアシスタントになります。手動のスクリプトも、APIキーの管理も不要です。

4. セルフホストで完全制御

あなたのデータはあなたのマシンに残ります。第三者のアクセスなし。他者によって課されるレート制限なし。ベンダーロックインなし。

git clone https://github.com/arufian/Crawlit.git
cd Crawlit
docker compose up

これだけです。APIはhttp://localhost:3000で稼働します。初回実行時にChromium（約90MB）をダウンロードし、その後の起動は瞬時です。

コア機能

単一ページの取得

任意のURLをクリーンなMarkdownに変換：

curl -X POST http://localhost:3000/v1/scrape \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "formats": ["markdown", "links"]
  }'

クリーンなMarkdown、HTML、リンク、またはそのすべてを含む構造化データを返します。Mozilla Readabilityがナビゲーションと広告を除去。TurndownがYAMLフロントマター付きでMarkdownに変換。

複数ページクロール

ドキュメントサイト全体をクロールする必要がありますか？Crawlitは深さ制御とドメインフィルタリングを備えた非同期BFSクロールを処理します：

curl -X POST http://localhost:3000/v1/crawl \
  -d '{
    "url": "https://docs.example.com",
    "maxDepth": 2,
    "limit": 100,
    "save": true
  }'

ジョブIDを返します。進捗をポーリング。いつでもキャンセル可能。すべてのページはメタデータ付きのクリーンなMarkdownファイルとして保存されます。

URL検出

コンテンツを取得せずにサイト上の全URLをマッピング：

curl -X POST http://localhost:3000/v1/map \
  -d '{"url": "https://example.com", "limit": 1000}'

高速。まずsitemap.xmlを試み、リンク抽出にフォールバック。クロールジョブの規模を把握するのに最適です。

LLMによる抽出

構造化データが必要ですか？JSONスキーマを渡し、CrawlitのLLM抽出に任せましょう：

curl -X POST http://localhost:3000/v1/scrape \
  -d '{
    "url": "https://news.ycombinator.com",
    "formats": ["markdown"],
    "extract": {
      "schema": {
        "type": "object",
        "properties": {
          "topStory": { "type": "string" },
          "points": { "type": "number" }
        },
        "required": ["topStory"]
      },
      "prompt": "トップストーリーのタイトルとそのポイントを抽出して"
    }
  }'

OpenAIまたはAnthropicで動作。スキーマ誘導型抽出により、必要なものを正確に取得できます。

ステルスブラウザモード

JavaScript多用のサイト？ボット保護？Crawlitにはステルスプラグイン付きのPlaywrightが含まれています：

curl -X POST http://localhost:3000/v1/scrape \
  -d '{
    "url": "https://protected-site.com",
    "mode": "browser",
    "waitFor": 2000
  }'

JavaScriptレンダリング、フィンガープリント検出、基本的なボットチャレンジを処理。エンタープライズグレードの保護には、住宅用プロキシを追加します。

実際のユースケース

1. AIエージェントの可観測性とリサーチ

エージェントの可観測性の基盤はデータアクセスです。AIエージェントにウェブコンテンツを供給して：

競合インテリジェンス：競合他社の価格、機能、ポジショニングを監視
マーケットリサーチ：業界レポート、ニュース、アナリストコンテンツからデータを集約
ナレッジベースの充実：RAGシステムを最新のドキュメントで最新状態に保つ
コンプライアンス監視：複数のソースにまたがる規制変更を追跡

CrawlitのAIエージェント統合により、エージェントは自律的に必要なデータを収集し、市場の変化をリアルタイムで観察し対応できます。

2. ドキュメント集約

複数のソースからすべてのドキュメントを収集し、Markdownに変換し、ナレッジベースに投入。内部検索やAIアシスタントの構築に最適です。

3. コンテンツモニタリング

スケジュールに従ってサイトをクロールし、変更を検出し、アラートをトリガー。SaaSツールに支払うことなく、独自の監視システムを構築。

4. データパイプライン統合

取得したコンテンツをYAMLフロントマター付きのMarkdownファイルとして保存。LLMコンテキストウィンドウ、ベクトルデータベース、またはデータパイプラインにドロップ。

可観測性革命

2026年のAIインフラにおける最も重要なトレンドはエージェントの可観測性 — 開発ライフサイクル全体にわたって自律的なエージェントの行動を追跡、評価、介入する能力です。

可観測性にウェブデータが必要な理由

2026年の本番環境エージェントは以下を含むマルチステップワークフローを実行します：

複数のサービスにまたがるツール使用チェーン
エージェント間のハンドオフと委任
外部ソースからの検索ステップ
タスクごとに10-50以上の決定ポイントを持つ分岐する意思決定パス

しかし、可観測性にはデータが必要です。エージェントは現在正確なウェブデータにアクセスせずに、情報に基づいた意思決定を行うことはできません。Crawlitは観察層を提供 — エージェントが意思決定と推論チェーンに組み込む実世界データを収集する能力を与えます。

AIエージェント + 可観測性スタック

2026年のモダンなAIエージェントスタックは以下のようになります：

データ収集層（Crawlit）— エージェントの推論のためのウェブデータを収集
エージェントフレームワーク — マルチステップワークフローをオーケストレーション
可観測性プラットフォーム — エージェントの行動を追跡、評価、介入
コントロールプレーン — ポリシーとガードレールを強制

Crawlitは基盤に位置し、可観測性を意味のあるものにする原材料（ウェブデータ）を提供します。正確なデータ収集なしでは、最高の可観測性ツールでもエージェントが良い意思決定を行うのを助けることはできません。

なぜ今なのか？

AIエージェントエコシステムが爆発的に成長しています。Claude Code、OpenAI Codex、OpenCodeなどのツールが、AI支援開発を主流にしています。しかし、これらのエージェントはウェブアクセスを必要とします。

これまでの選択肢は：

Firecrawl/Jina/Apifyにページごとに支払う（スケールすると高価）
カスタムクローリングインフラを構築（時間がかかる）
脆弱なDIYスクリプトを使用（保守の悪夢）

Crawlitは第4の選択肢を提供します：無料、セルフホスト、AIエージェント対応、あなたが制御するインフラ。

結論

AIワークフローのためのWebクローリングは、高額であってはなりません。複雑なインフラを管理する必要もありません。誰かのエコシステムにロックインされるべきでもありません。

Crawlitが提供するもの：

✅ 無料、MITライセンス、オープンソース
✅ セルフホスト、完全制御
✅ Firecrawl互換API
✅ 自律的なデータ収集のためのAIエージェント統合
✅ ワンコマンドセットアップ
✅ ゼロのページごとのコスト
✅ AIエージェントの可観測性のためのデータ基盤

AIエージェント、RAGシステム、データパイプライン、または可観測性インフラを構築している場合でも、Crawlitはすべてを可能にするウェブデータ層を提供します。

リンク：

ウェブサイト：https://labs.arufian.dev/crawlit/
GitHub：https://github.com/arufian/Crawlit
AIエージェントスキル：https://github.com/arufian/crawlit-skill

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up