1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Crawlit:AIワークフローのための無料・セルフホスト型Webクローラー

1
Posted at

はじめに

2026年、AIエージェントはどこにでもあります。彼らはウェブ上でリサーチ、分析、タスクの自動化を行います。しかし問題があります:ほとんどのWeb収集ツールはページごとに課金するため、使えば使うほどコストが膨らみます。

Crawlitはその方程式を変えます。無料のオープンソース、セルフホスト型Webクローラーで、どんなウェブサイトもクリーンでLLM対応のMarkdownに変換します。1コマンドで起動、ページごとのコストはゼロ、完全にあなたのインフラで動作します。GitHubでソースコードを確認できます。

AIエージェントにとって可観測性が重要な理由

2026年のAIエージェントの世界は 可観測性(Observability) によって定義されています — 自律的なエージェントの行動を追跡、評価、介入する能力です。本番環境のエージェントは、ツール使用チェーン、エージェント間のハンドオフ、検索ステップ、分岐する意思決定パスを含むマルチステップワークフローを実行します。

しかし、エージェントはアクセスできないものを観察できません。CrawlitはAIエージェントの可観測性を可能にするデータ層を提供します。エージェントが以下を必要とするとき:

  • 50のウェブサイトにまたがる競合他社の価格調査
  • 複数のソースにまたがるドキュメント変更の監視
  • 分析と意思決定のための構造化データ抽出

Crawlitは、観察し行動するために必要なウェブデータへの信頼性が高く、コストフリーのアクセスを提供します。

Crawlitの特徴

1. 真に無料・オープンソース

CrawlitはMITライセンスです。ページごとの料金もなく、APIクレジットもなく、使用制限もありません。あなたがホストし、あなたが所有し、あなたが制御します。

他の代替手段と比較してください:

  • Firecrawl:無料枠は月1,000ページまで、その後月額16〜599ドル
  • Jina Reader:すぐに積み上がる従量課金モデル
  • Apify:月額39ドルから、追加使用料がかかる
  • Crawlit:永久に0ドル

月100,000ページの場合、Firecrawlでは年間約4,000ドルかかります。Crawlitなら?何もかかりません。

2. Firecrawl互換API

すでにFirecrawlを使っていますか?移行は簡単です。Crawlitは同じAPI形状を実装しています:

# 単一ページを取得
POST /v1/scrape

# 複数ページをクロール
POST /v1/crawl

# サイト上の全URLをマッピング
POST /v1/map

同じリクエスト/レスポンス形式。同じ出力品質。異なる価格タグ。

3. AIエージェントのために構築

ここでCrawlitが面白くなります。新しいcrawlit-skillにより、AIコーディングアシスタントがCrawlitを直接制御できます。

対応ツール:

  • Claude Code
  • OpenAI Codex
  • OpenCode
  • 任意のMCP互換AIツール

AIエージェントにこう言わせることを想像してください:

AIエージェントがあなたのウェブリサーチアシスタントになります。手動のスクリプトも、APIキーの管理も不要です。

4. セルフホストで完全制御

あなたのデータはあなたのマシンに残ります。第三者のアクセスなし。他者によって課されるレート制限なし。ベンダーロックインなし。

git clone https://github.com/arufian/Crawlit.git
cd Crawlit
docker compose up

これだけです。APIはhttp://localhost:3000で稼働します。初回実行時にChromium(約90MB)をダウンロードし、その後の起動は瞬時です。

コア機能

単一ページの取得

任意のURLをクリーンなMarkdownに変換:

curl -X POST http://localhost:3000/v1/scrape \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "formats": ["markdown", "links"]
  }'

クリーンなMarkdown、HTML、リンク、またはそのすべてを含む構造化データを返します。Mozilla Readabilityがナビゲーションと広告を除去。TurndownがYAMLフロントマター付きでMarkdownに変換。

複数ページクロール

ドキュメントサイト全体をクロールする必要がありますか?Crawlitは深さ制御とドメインフィルタリングを備えた非同期BFSクロールを処理します:

curl -X POST http://localhost:3000/v1/crawl \
  -d '{
    "url": "https://docs.example.com",
    "maxDepth": 2,
    "limit": 100,
    "save": true
  }'

ジョブIDを返します。進捗をポーリング。いつでもキャンセル可能。すべてのページはメタデータ付きのクリーンなMarkdownファイルとして保存されます。

URL検出

コンテンツを取得せずにサイト上の全URLをマッピング:

curl -X POST http://localhost:3000/v1/map \
  -d '{"url": "https://example.com", "limit": 1000}'

高速。まずsitemap.xmlを試み、リンク抽出にフォールバック。クロールジョブの規模を把握するのに最適です。

LLMによる抽出

構造化データが必要ですか?JSONスキーマを渡し、CrawlitのLLM抽出に任せましょう:

curl -X POST http://localhost:3000/v1/scrape \
  -d '{
    "url": "https://news.ycombinator.com",
    "formats": ["markdown"],
    "extract": {
      "schema": {
        "type": "object",
        "properties": {
          "topStory": { "type": "string" },
          "points": { "type": "number" }
        },
        "required": ["topStory"]
      },
      "prompt": "トップストーリーのタイトルとそのポイントを抽出して"
    }
  }'

OpenAIまたはAnthropicで動作。スキーマ誘導型抽出により、必要なものを正確に取得できます。

ステルスブラウザモード

JavaScript多用のサイト?ボット保護?Crawlitにはステルスプラグイン付きのPlaywrightが含まれています:

curl -X POST http://localhost:3000/v1/scrape \
  -d '{
    "url": "https://protected-site.com",
    "mode": "browser",
    "waitFor": 2000
  }'

JavaScriptレンダリング、フィンガープリント検出、基本的なボットチャレンジを処理。エンタープライズグレードの保護には、住宅用プロキシを追加します。

実際のユースケース

1. AIエージェントの可観測性とリサーチ

エージェントの可観測性の基盤はデータアクセスです。AIエージェントにウェブコンテンツを供給して:

  • 競合インテリジェンス:競合他社の価格、機能、ポジショニングを監視
  • マーケットリサーチ:業界レポート、ニュース、アナリストコンテンツからデータを集約
  • ナレッジベースの充実:RAGシステムを最新のドキュメントで最新状態に保つ
  • コンプライアンス監視:複数のソースにまたがる規制変更を追跡

CrawlitのAIエージェント統合により、エージェントは自律的に必要なデータを収集し、市場の変化をリアルタイムで観察し対応できます。

2. ドキュメント集約

複数のソースからすべてのドキュメントを収集し、Markdownに変換し、ナレッジベースに投入。内部検索やAIアシスタントの構築に最適です。

3. コンテンツモニタリング

スケジュールに従ってサイトをクロールし、変更を検出し、アラートをトリガー。SaaSツールに支払うことなく、独自の監視システムを構築。

4. データパイプライン統合

取得したコンテンツをYAMLフロントマター付きのMarkdownファイルとして保存。LLMコンテキストウィンドウ、ベクトルデータベース、またはデータパイプラインにドロップ。

可観測性革命

2026年のAIインフラにおける最も重要なトレンドはエージェントの可観測性 — 開発ライフサイクル全体にわたって自律的なエージェントの行動を追跡、評価、介入する能力です。

可観測性にウェブデータが必要な理由

2026年の本番環境エージェントは以下を含むマルチステップワークフローを実行します:

  • 複数のサービスにまたがるツール使用チェーン
  • エージェント間のハンドオフと委任
  • 外部ソースからの検索ステップ
  • タスクごとに10-50以上の決定ポイントを持つ分岐する意思決定パス

しかし、可観測性にはデータが必要です。エージェントは現在正確なウェブデータにアクセスせずに、情報に基づいた意思決定を行うことはできません。Crawlitは観察層を提供 — エージェントが意思決定と推論チェーンに組み込む実世界データを収集する能力を与えます。

AIエージェント + 可観測性スタック

2026年のモダンなAIエージェントスタックは以下のようになります:

  1. データ収集層(Crawlit)— エージェントの推論のためのウェブデータを収集
  2. エージェントフレームワーク — マルチステップワークフローをオーケストレーション
  3. 可観測性プラットフォーム — エージェントの行動を追跡、評価、介入
  4. コントロールプレーン — ポリシーとガードレールを強制

Crawlitは基盤に位置し、可観測性を意味のあるものにする原材料(ウェブデータ)を提供します。正確なデータ収集なしでは、最高の可観測性ツールでもエージェントが良い意思決定を行うのを助けることはできません。

なぜ今なのか?

AIエージェントエコシステムが爆発的に成長しています。Claude Code、OpenAI Codex、OpenCodeなどのツールが、AI支援開発を主流にしています。しかし、これらのエージェントはウェブアクセスを必要とします。

これまでの選択肢は:

  1. Firecrawl/Jina/Apifyにページごとに支払う(スケールすると高価)
  2. カスタムクローリングインフラを構築(時間がかかる)
  3. 脆弱なDIYスクリプトを使用(保守の悪夢)

Crawlitは第4の選択肢を提供します:無料、セルフホスト、AIエージェント対応、あなたが制御するインフラ。

結論

AIワークフローのためのWebクローリングは、高額であってはなりません。複雑なインフラを管理する必要もありません。誰かのエコシステムにロックインされるべきでもありません。

Crawlitが提供するもの:

  • ✅ 無料、MITライセンス、オープンソース
  • ✅ セルフホスト、完全制御
  • ✅ Firecrawl互換API
  • ✅ 自律的なデータ収集のためのAIエージェント統合
  • ✅ ワンコマンドセットアップ
  • ✅ ゼロのページごとのコスト
  • ✅ AIエージェントの可観測性のためのデータ基盤

AIエージェント、RAGシステム、データパイプライン、または可観測性インフラを構築している場合でも、Crawlitはすべてを可能にするウェブデータ層を提供します。

リンク:

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?