はじめに
2026年、AIエージェントはどこにでもあります。彼らはウェブ上でリサーチ、分析、タスクの自動化を行います。しかし問題があります:ほとんどのWeb収集ツールはページごとに課金するため、使えば使うほどコストが膨らみます。
Crawlitはその方程式を変えます。無料のオープンソース、セルフホスト型Webクローラーで、どんなウェブサイトもクリーンでLLM対応のMarkdownに変換します。1コマンドで起動、ページごとのコストはゼロ、完全にあなたのインフラで動作します。GitHubでソースコードを確認できます。
AIエージェントにとって可観測性が重要な理由
2026年のAIエージェントの世界は 可観測性(Observability) によって定義されています — 自律的なエージェントの行動を追跡、評価、介入する能力です。本番環境のエージェントは、ツール使用チェーン、エージェント間のハンドオフ、検索ステップ、分岐する意思決定パスを含むマルチステップワークフローを実行します。
しかし、エージェントはアクセスできないものを観察できません。CrawlitはAIエージェントの可観測性を可能にするデータ層を提供します。エージェントが以下を必要とするとき:
- 50のウェブサイトにまたがる競合他社の価格調査
- 複数のソースにまたがるドキュメント変更の監視
- 分析と意思決定のための構造化データ抽出
Crawlitは、観察し行動するために必要なウェブデータへの信頼性が高く、コストフリーのアクセスを提供します。
Crawlitの特徴
1. 真に無料・オープンソース
CrawlitはMITライセンスです。ページごとの料金もなく、APIクレジットもなく、使用制限もありません。あなたがホストし、あなたが所有し、あなたが制御します。
他の代替手段と比較してください:
- Firecrawl:無料枠は月1,000ページまで、その後月額16〜599ドル
- Jina Reader:すぐに積み上がる従量課金モデル
- Apify:月額39ドルから、追加使用料がかかる
- Crawlit:永久に0ドル
月100,000ページの場合、Firecrawlでは年間約4,000ドルかかります。Crawlitなら?何もかかりません。
2. Firecrawl互換API
すでにFirecrawlを使っていますか?移行は簡単です。Crawlitは同じAPI形状を実装しています:
# 単一ページを取得
POST /v1/scrape
# 複数ページをクロール
POST /v1/crawl
# サイト上の全URLをマッピング
POST /v1/map
同じリクエスト/レスポンス形式。同じ出力品質。異なる価格タグ。
3. AIエージェントのために構築
ここでCrawlitが面白くなります。新しいcrawlit-skillにより、AIコーディングアシスタントがCrawlitを直接制御できます。
対応ツール:
- Claude Code
- OpenAI Codex
- OpenCode
- 任意のMCP互換AIツール
AIエージェントにこう言わせることを想像してください:
- 「https://docs.example.comからすべてのドキュメントを取得して」
- 「これら5つの競合ウェブサイトから価格情報を取得して」
- 「このECサイトから商品名と価格を抽出して」
AIエージェントがあなたのウェブリサーチアシスタントになります。手動のスクリプトも、APIキーの管理も不要です。
4. セルフホストで完全制御
あなたのデータはあなたのマシンに残ります。第三者のアクセスなし。他者によって課されるレート制限なし。ベンダーロックインなし。
git clone https://github.com/arufian/Crawlit.git
cd Crawlit
docker compose up
これだけです。APIはhttp://localhost:3000で稼働します。初回実行時にChromium(約90MB)をダウンロードし、その後の起動は瞬時です。
コア機能
単一ページの取得
任意のURLをクリーンなMarkdownに変換:
curl -X POST http://localhost:3000/v1/scrape \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com",
"formats": ["markdown", "links"]
}'
クリーンなMarkdown、HTML、リンク、またはそのすべてを含む構造化データを返します。Mozilla Readabilityがナビゲーションと広告を除去。TurndownがYAMLフロントマター付きでMarkdownに変換。
複数ページクロール
ドキュメントサイト全体をクロールする必要がありますか?Crawlitは深さ制御とドメインフィルタリングを備えた非同期BFSクロールを処理します:
curl -X POST http://localhost:3000/v1/crawl \
-d '{
"url": "https://docs.example.com",
"maxDepth": 2,
"limit": 100,
"save": true
}'
ジョブIDを返します。進捗をポーリング。いつでもキャンセル可能。すべてのページはメタデータ付きのクリーンなMarkdownファイルとして保存されます。
URL検出
コンテンツを取得せずにサイト上の全URLをマッピング:
curl -X POST http://localhost:3000/v1/map \
-d '{"url": "https://example.com", "limit": 1000}'
高速。まずsitemap.xmlを試み、リンク抽出にフォールバック。クロールジョブの規模を把握するのに最適です。
LLMによる抽出
構造化データが必要ですか?JSONスキーマを渡し、CrawlitのLLM抽出に任せましょう:
curl -X POST http://localhost:3000/v1/scrape \
-d '{
"url": "https://news.ycombinator.com",
"formats": ["markdown"],
"extract": {
"schema": {
"type": "object",
"properties": {
"topStory": { "type": "string" },
"points": { "type": "number" }
},
"required": ["topStory"]
},
"prompt": "トップストーリーのタイトルとそのポイントを抽出して"
}
}'
OpenAIまたはAnthropicで動作。スキーマ誘導型抽出により、必要なものを正確に取得できます。
ステルスブラウザモード
JavaScript多用のサイト?ボット保護?Crawlitにはステルスプラグイン付きのPlaywrightが含まれています:
curl -X POST http://localhost:3000/v1/scrape \
-d '{
"url": "https://protected-site.com",
"mode": "browser",
"waitFor": 2000
}'
JavaScriptレンダリング、フィンガープリント検出、基本的なボットチャレンジを処理。エンタープライズグレードの保護には、住宅用プロキシを追加します。
実際のユースケース
1. AIエージェントの可観測性とリサーチ
エージェントの可観測性の基盤はデータアクセスです。AIエージェントにウェブコンテンツを供給して:
- 競合インテリジェンス:競合他社の価格、機能、ポジショニングを監視
- マーケットリサーチ:業界レポート、ニュース、アナリストコンテンツからデータを集約
- ナレッジベースの充実:RAGシステムを最新のドキュメントで最新状態に保つ
- コンプライアンス監視:複数のソースにまたがる規制変更を追跡
CrawlitのAIエージェント統合により、エージェントは自律的に必要なデータを収集し、市場の変化をリアルタイムで観察し対応できます。
2. ドキュメント集約
複数のソースからすべてのドキュメントを収集し、Markdownに変換し、ナレッジベースに投入。内部検索やAIアシスタントの構築に最適です。
3. コンテンツモニタリング
スケジュールに従ってサイトをクロールし、変更を検出し、アラートをトリガー。SaaSツールに支払うことなく、独自の監視システムを構築。
4. データパイプライン統合
取得したコンテンツをYAMLフロントマター付きのMarkdownファイルとして保存。LLMコンテキストウィンドウ、ベクトルデータベース、またはデータパイプラインにドロップ。
可観測性革命
2026年のAIインフラにおける最も重要なトレンドはエージェントの可観測性 — 開発ライフサイクル全体にわたって自律的なエージェントの行動を追跡、評価、介入する能力です。
可観測性にウェブデータが必要な理由
2026年の本番環境エージェントは以下を含むマルチステップワークフローを実行します:
- 複数のサービスにまたがるツール使用チェーン
- エージェント間のハンドオフと委任
- 外部ソースからの検索ステップ
- タスクごとに10-50以上の決定ポイントを持つ分岐する意思決定パス
しかし、可観測性にはデータが必要です。エージェントは現在正確なウェブデータにアクセスせずに、情報に基づいた意思決定を行うことはできません。Crawlitは観察層を提供 — エージェントが意思決定と推論チェーンに組み込む実世界データを収集する能力を与えます。
AIエージェント + 可観測性スタック
2026年のモダンなAIエージェントスタックは以下のようになります:
- データ収集層(Crawlit)— エージェントの推論のためのウェブデータを収集
- エージェントフレームワーク — マルチステップワークフローをオーケストレーション
- 可観測性プラットフォーム — エージェントの行動を追跡、評価、介入
- コントロールプレーン — ポリシーとガードレールを強制
Crawlitは基盤に位置し、可観測性を意味のあるものにする原材料(ウェブデータ)を提供します。正確なデータ収集なしでは、最高の可観測性ツールでもエージェントが良い意思決定を行うのを助けることはできません。
なぜ今なのか?
AIエージェントエコシステムが爆発的に成長しています。Claude Code、OpenAI Codex、OpenCodeなどのツールが、AI支援開発を主流にしています。しかし、これらのエージェントはウェブアクセスを必要とします。
これまでの選択肢は:
- Firecrawl/Jina/Apifyにページごとに支払う(スケールすると高価)
- カスタムクローリングインフラを構築(時間がかかる)
- 脆弱なDIYスクリプトを使用(保守の悪夢)
Crawlitは第4の選択肢を提供します:無料、セルフホスト、AIエージェント対応、あなたが制御するインフラ。
結論
AIワークフローのためのWebクローリングは、高額であってはなりません。複雑なインフラを管理する必要もありません。誰かのエコシステムにロックインされるべきでもありません。
Crawlitが提供するもの:
- ✅ 無料、MITライセンス、オープンソース
- ✅ セルフホスト、完全制御
- ✅ Firecrawl互換API
- ✅ 自律的なデータ収集のためのAIエージェント統合
- ✅ ワンコマンドセットアップ
- ✅ ゼロのページごとのコスト
- ✅ AIエージェントの可観測性のためのデータ基盤
AIエージェント、RAGシステム、データパイプライン、または可観測性インフラを構築している場合でも、Crawlitはすべてを可能にするウェブデータ層を提供します。
リンク:
- ウェブサイト:https://labs.arufian.dev/crawlit/
- GitHub:https://github.com/arufian/Crawlit
- AIエージェントスキル:https://github.com/arufian/crawlit-skill