0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2026、エージェントのharnessを自分で組む──全レイヤーの「今も生きてる」OSSを確認して並べる

0
Posted at

最先端AIを技術の中身まで読み解く「AIウォッチ」の記事です。元ネタは anmolbaranwal 氏の "Open Source Toolkit for Building AI Agents in 2026"(17 レイヤー・各レイヤー第一候補+代替)。ただしこの手の「まとめ」はリンク切れ・リポジトリ移転・開発停止であっという間に腐る。そこで元記事に出てくる約 100 リポジトリを 2026-06 に gh api で全件確認し、スター数・最終 push・リポジトリ移転・アーカイブを確認したうえで並べ直しています。★は概数、push は最終更新月(確認した値)。各レイヤーは「第一候補を少し深く+代替は一覧で」の構成です。

「エージェントのフレームワーク、結局どれを使えばいいの?」という問いは、2026 年にはもう古い。単一フレームワークの勝者を選ぶ時代は終わり、harness をレイヤーごとに組む時代になった。本体、編成、記憶、ツール接続、サンドボックス、評価、観測──さらに UI・音声・スクレイピング・文書処理まで、実装の全レイヤーにそれぞれ専門の OSS がいる。

この記事の狙いは2つ。(1) 実装の全景を 17 レイヤーで網羅する(完全性)。(2) その全部を実際に叩いて「今も生きてるか」を確かめる(鮮度)。まとめ記事のリンクを鵜呑みにせず、移転・停止・アーカイブを潰してあります。

まず:harness は「層」で考える

以前の記事で、指示システムを L0–L7 の能力ラダーとして整理しました。あれは「制約をどのチャンネルに乗せるか」の物差し。今回はその姉妹編で、実際に組むための"部品カタログ"です。harness を「ちゃんと走る(実行)/走り続ける(状態)/安定して走る(ガバナンス)」の三層で捉える見方が、ここでもそのまま効きます。

以下、元記事の 17 レイヤーを 3 グループにまとめて、各レイヤーを確認した値つきで並べます。


A. 本体と組み立て

1. オープンソースのコーディングエージェント本体

ターミナル/IDE で実際にコードを書く本体。競争が最も激しく、ほぼ全部が直近に push されている。

第一候補は opencode(現 anomalyco/opencode, ~169k)。このカテゴリで最大のスターを持ち、ターミナルネイティブ・75+ プロバイダ対応・並列セッションが強み。特定の IDE に縛られず、どのモデルでも同じ操作感で回せるのが効く。ただし元の sst/opencode から owner が移転しているので、古い記事のリンクは現在の正式名とズレている点に注意。用途で選ぶなら、Google 系は gemini-cli、OpenAI 公式は codex、VS Code の中で承認しながら進めたいなら cline、Git ベースのペアプロは aider。

プロジェクト push ひとことで
opencode(現 anomalyco/opencode ~169k 06 ターミナルネイティブ・75+プロバイダ・並列セッション。sst/opencode から移転
gemini-cli(google-gemini) ~105k 06 Google 製、1M トークン文脈
codex(openai) ~88k 06 OpenAI 公式ターミナルエージェント
OpenHands(現 OpenHands/OpenHands ~76k 06 ブラウジング・PR まで。All-Hands-AI/ から移転
cline(VS Code 拡張) ~63k 06 ステップごとに承認
aider ~46k 05 Git ネイティブのペアプロ
goose(現 aaif-goose/goose ~46k 06 Block 発、MCP ファースト。owner 移転

2. 編成(オーケストレーション)

「計画→ツール→状態保持→サブエージェント」を回す土台。

第一候補は LangGraph(~34k)。agent の動きを「状態を持つグラフ」として書き、各ノードでチェックポイントを取れるのが核心。途中で止めて人間が判断し、また再開する(human-in-the-loop)が素直に書けるので、「失敗したら戻る・分岐する」を作り込みたい本番系で強い。デファクトの一つで資料も多い。好みで選ぶなら、TypeScript 主体なら Mastra、構造化出力の型安全を重視するなら Pydantic AI、永続記憶込みの軽さなら Agno、Google スタックなら ADK。

プロジェクト push ひとことで
Agno ~40k 06 軽量+永続記憶、AgentOS(FastAPI)同梱
LangGraph ~34k 06 状態グラフ+チェックポイント。デファクトの一つ
Mastra ~25k 06 TypeScript ファースト、RAG/観測/MCP 込み
Deep Agents(LangGraph 上) ~24k 06 計画・FS ツール・サブエージェント・文脈圧縮
Google ADK ~20k 06 公式 ADK、Vertex AI 連携
Pydantic AI ~17k 06 型安全・構造化出力の検証が強み
PocketFlow ~11k 03 100 行ミニマル LLM フレームワーク

3. コーディングエージェント harness

本体を「自律して回る」状態にする骨組み(計画・FS・サブエージェント・文脈圧縮)。

第一候補は Deep Agents(LangGraph 上, ~24k)。コーディング agent を「自律で長く回る」状態にするための骨組みで、計画立て・ファイルシステム系ツール・サブエージェント・文脈の圧縮を最初から備える。ゼロから harness を書くより、ここを土台にして足りない部品を足すほうが圧倒的に速い。「説明から決定的・再現可能な harness を生成する」発想で攻めるなら Archon、達成度で agent 自体が進化する outcome 駆動なら Hive も候補。

プロジェクト push ひとことで
Archon ~22k 06 説明から決定的・再現可能な harness を生成
browser-harness(browser-use) ~14k 05 LLM が CDP を直叩きする自己修復 harness
Deep Agents ~24k 06 (上の編成と兼任)計画+サブエージェント
Hive ~10k 05 目標達成度で agent が進化する outcome 駆動

4. マルチエージェント・フレームワーク

複数 agent を役割分担/並列で動かす。

第一候補は CrewAI(~53k)。「リサーチ役・執筆役・レビュー役」のように役割(role)を切って協調させる発想が直感的で、最初の一歩を踏みやすい。さらに Flows でイベント駆動の制御も足せるので、試作から本番まで地続きで持っていける。会話駆動を細かく組むなら AG2(AutoGen コミュニティ fork)、長期サポート狙いなら Microsoft Agent Framework。なお MetaGPT(~68k)は FoundationAgents/ に移転かつ最終 push が 2026-01 とやや停滞気味なので、採用時は活発度を確認したい。

プロジェクト push ひとことで
MetaGPT(現 FoundationAgents/MetaGPT ~68k 01 PM/設計/実装の役割で「ソフト会社」を模擬。移転+やや停滞
CrewAI ~53k 06 ロール分担。Flows でイベント駆動も
AgentScope(Alibaba) ~26k 06 音声・MCP・A2A 対応の本番志向
OWL(camel-ai) ~20k 05 計画+実行、GAIA ベンチで上位
Microsoft Agent Framework ~11k 06 AutoGen の後継(長期サポート志向)
AG2(AutoGen コミュ fork) ~4.6k 06 conversable agents / group chat

B. 能力レイヤー(外の世界に触る)

5. Computer Use(画面操作)

API のないアプリを「画面ごと」操作させる層。

第一候補は UI-TARS Desktop(bytedance, ~36k)。スクリーンショットからボタンや入力欄の位置を当てる「GUI 接地」モデルを積んでいて、API の用意されていないデスクトップアプリでも agent に操作させられる。同リポに計画寄りの Agent TARS も同梱。VM サンドボックスで安全に回すなら cua、視覚駆動で Web/モバイルまで扱うなら Midscene。注意点として、人気の Bytebot(~11k)はアーカイブ済み(最終 push 2025-09)なので新規採用は避けたい。

プロジェクト push ひとことで
UI-TARS Desktop(bytedance) ~36k 05 GUI 接地モデル。Agent TARS も同リポ
cua(trycua) ~17k 06 macOS/Linux の VM サンドボックスで agent 実行
Midscene ~14k 06 視覚駆動の UI 自動化(Web/Android/iOS)
Agent-S(simular-ai) ~12k 05 階層計画+過去対話の知識ベース
Bytebot ~11k 2025-09 ⚠️ アーカイブ済み(開発停止)。採用注意

6. ブラウザ自動化

ヘッドレスブラウザを agent に運転させる層。

第一候補は Browser Use(~97k)。LLM ファーストで設計されたブラウザ agent で、ページ構造を読んで「次にどこをクリックし、何を入力するか」を LLM に決めさせる。スクリプトを書き下す従来の自動化と違い、レイアウトが多少変わっても破綻しにくいのが強み。Desktop 版やクラウド実行の Box など派生も活発。act/extract/observe/agent の粒度で制御したいなら Stagehand、画像認識で未知サイトを攻める swarm なら Skyvern、Playwright をそのまま MCP 化するなら playwright-mcp。

プロジェクト push ひとことで
Browser Use ~97k 06 LLM ファーストのブラウザ agent。Desktop/Box 派生も
Scrapling ~59k 06 セレクタ漂移に強い・anti-bot 回避のスクレイパ
playwright-mcp(microsoft) ~33k 05 Playwright を MCP サーバ化
Stagehand(browserbase) ~23k 06 act/extract/observe/agent の4プリミティブ
Skyvern ~22k 06 画像認識で未知サイトを攻める agent swarm

7. Web スクレイピング・取り込み

外部の情報を agent の文脈に流し込む入口。

第一候補は Firecrawl(現 firecrawl/firecrawl, ~128k)。サイトをクロールして LLM 用の Markdown / JSON に整える定番で、JS レンダリングや認証付きページも扱える。RAG の前段として「とりあえずこれで取り込む」の第一候補。mendableai/ から移転済みなのでリンクは要確認。APIキー不要でセルフホストしたいなら crawl4ai、構造化抽出をプロンプトで指示するなら ScrapeGraphAI、GitHub リポを丸ごとプロンプト化するなら Gitingest、URL 頭に足すだけの手軽さなら Jina Reader。

プロジェクト push ひとことで
Firecrawl(現 firecrawl/firecrawl ~128k 06 サイト→LLM 用 Markdown/JSON。mendableai/ から移転
crawl4ai ~68k 06 セルフホスト・APIキー不要・RAG 最適化
ScrapeGraphAI ~27k 06 プロンプト駆動で構造化抽出
Gitingest ~15k 06 GitHub リポ→プロンプト向け抽出
Jina Reader ~11k 05 URL 頭に r.jina.ai/ で Markdown 化

8. 文書処理(RAG の入口)

PDF やオフィス文書を「LLM が読める構造」に変える層。

第一候補は Docling(IBM, ~61k)。PDF やオフィス文書を、表・レイアウト・読み順を保ったまま「DocTags」という構造に変換する。Granite-DocLing VLM を使い、崩れがちな表組みや段組みも精度よく拾えるので、RAG の前処理で効く。表・数式の抽出に特化するなら MinerU、解析から分割・検索まで一気通貫が欲しいなら RAGFlow(~82k)、多言語 OCR は PaddleOCR、160+ コネクタの RAG 基盤なら LlamaIndex。Marker は datalab-to/ に移転済み。

プロジェクト push ひとことで
RAGFlow ~82k 06 DeepDoc の解析→分割→検索の end-to-end
PaddleOCR ~79k 06 100+ 言語 OCR
MinerU ~66k 06 PDF の表・数式抽出が SOTA
Docling(IBM) ~61k 06 Granite-DocLing VLM で DocTags 変換
LlamaIndex ~50k 05 160+ コネクタの RAG フレームワーク
Marker(現 datalab-to/marker ~36k 05 PDF/EPUB/PPTX→Markdown。移転
Unstructured ~15k 06 65+ 形式(メール・表・画像)

9. 音声エージェント

聞く・話すを実時間で扱う層。

第一候補は Pipecat(~13k)。STT→LLM→TTS のパイプラインを実時間でつなぐ「音声 agent のための編成 framework」で、割り込み(barge-in)や遅延管理など、音声特有の難所を引き受けてくれる。電話・音声ボットを組むときの土台。WebRTC 込みのインフラまで欲しいなら LiveKit Agents(ChatGPT Voice でも使用)、文字起こし単体は Whisper(~101k)、声クローンは fish-speech / GPT-SoVITS / CosyVoice。

プロジェクト push ひとことで
Whisper(openai) ~101k 04 多言語 STT の定番
GPT-SoVITS ~58k 04 少数音声から声クローン
fish-speech ~31k 06 多言語ゼロショット音声クローン
CosyVoice(Alibaba) ~21k 05 多言語ゼロショット生成
Pipecat ~13k 06 STT/LLM/TTS をつなぐ実時間音声 framework
LiveKit Agents ~11k 06 WebRTC、ChatGPT Voice でも使われる
Moonshine ~8k 06 低遅延・オンデバイス STT

10. フロントエンド・UI

エージェントを人に見せる層。

第一候補は CopilotKit(~32k)。単なるチャット UI の貼り付けではなく、agent がアプリの状態を読みながら画面を組み立てる「生成 UI(generative UI)」までやれるのが他と違う点。React の hooks でフロント側の状態やアクションを agent の文脈に渡し、逆に agent の出力を UI コンポーネントとして描画できる。裏の LangGraph / CrewAI ともつながるので、「裏の編成」と「表の画面」を一本で通したいときの第一候補。ベンダー中立に薄く使うなら vercel/ai(AI SDK)、生成 UI 部品に特化するなら tambo、headless で組むなら assistant-ui。

プロジェクト push ひとことで
vercel/ai(AI SDK) ~25k 06 ストリーミング/ツール呼び出し、Next.js 最適
CopilotKit ~32k 06 チャット UI+hooks+生成 UI
tambo ~11k 06 生成 UI コンポーネント特化の React SDK
assistant-ui ~10k 06 チャット UI の headless プリミティブ
TanStack/ai ~2.7k 06 ベンダー中立・モジュラな AI SDK
agent-native(BuilderIO) ~448 06 agent と UI が同じ action model を共有

C. 土台(記憶・接続・実行・評価・観測)

11. 記憶(状態層)

長いタスク・複数セッションをまたいで「覚えておく」。

第一候補は mem0(~57k)。会話から「覚えておくべき事実」を抽出し、圧縮した自然言語として保持・検索する最大手。文脈ウィンドウに全部を詰め込む代わりに、必要な記憶だけを取り出して注入するので、長いタスクや複数セッションをまたいだ一貫性を保ちやすい。事実の有効期間まで持つ時間的知識グラフが要るなら Graphiti、agent 横断の記憶 API なら Supermemory、システムプロンプトに記憶を焼き込む発想の元祖は Letta(旧 MemGPT)、大規模コーパス向けの決定的グラフ記憶は Cognee。

プロジェクト push ひとことで
mem0 ~57k 06 重要な事実を抽出し圧縮した自然言語で保持。最大手
Graphiti(getzep) ~27k 05 事実の有効期間を持つ時間的知識グラフ
Supermemory ~25k 06 エージェント横断の記憶 API
Letta(旧 MemGPT) ~23k 05 記憶をシステムプロンプトに焼き込む。発想の元祖
Cognee ~18k 06 大規模コーパス向けの決定的な知識グラフ記憶

12. ツール接続・MCP

モデルに「外の世界」を触らせる。MCP が標準として定着。

第一候補は Composio(~29k)。Gmail や Slack など外部サービスへの接続を、OAuth 管理込みで agent に渡せる統合層。Tool Router で「今のタスクに必要な道具だけ」を選んで露出できるので、ツールを増やすほど文脈が膨らむ問題を抑えられる。モデル側を 100+ プロバイダで統一して使うなら LiteLLM(~49k、こちらはモデル・ゲートウェイの事実上の標準)、SQL でデータ源を触るなら MindsDB(minds-platform に移転)、ガードレール込みのゲートウェイなら Portkey。MCP 自体はもう標準として定着しています。

プロジェクト push ひとことで
LiteLLM ~49k 06 100+ プロバイダを統一 API+コスト追跡。事実上の標準
MindsDB(現 mindsdb/minds-platform ~39k 06 SQL で 200+ データ源にアクセス。移転
Composio ~29k 06 OAuth 管理込みの統合層、Tool Router
Portkey AI Gateway ~12k 05 1,600+ モデル+ガードレール
ACI(aipotheosis-labs) ~4.8k 05 600+ ツールを単一 MCP サーバで

13. サンドボックス・コード実行

生成コードを隔離して実行する層。ClickHouse の記事の「判定の壁」を安全に回すなら外せない。

第一候補は E2B(~12k)。agent が書いた怪しいコードを、Firecracker microVM の中で ~150ms 起動・独立カーネルで隔離実行する。ClickHouse の記事でいう「判定の壁」を安全に回すための土台で、ホストを巻き込まずに「とりあえず動かして結果で判定する」が成立する。永続環境と Git 連携が欲しいなら Daytona(~73k)、クラウド非依存でローカルに置くなら microsandbox、coding/GUI/browser を一括で扱う基盤なら OpenSandbox。下回りの microVM 基盤そのものは Firecracker。

プロジェクト push ひとことで
Daytona ~73k 06 ~90ms 起動の永続環境、Git 連携
Firecracker(microVM 基盤) ~35k 06 E2B 等の下回り
E2B ~12k 06 Firecracker microVM、~150ms 起動・独立カーネル
OpenSandbox(Alibaba) ~11k 06 coding/GUI/browser agent 対応の基盤
microsandbox ~6k 06 クラウド非依存のローカル・プログラマブル

14. テスト・評価

agent の出力が「正しいか」を機械で測る層。

第一候補は DeepEval(~16k)。LLM / agent 向けに 50+ の評価指標を持ち、「この出力は正しいか」を pytest 的に書いて回せる。出力の良し悪しを人手のレビューに頼らず CI に組み込めるのが核で、これが L0–L7 でいう L6(確定的な壁) を作る材料になる。CLI ファーストで回すなら promptfoo、OTel ネイティブでトレースと一体なら Phoenix、評価+トレース両取りは Opik、脆弱性スキャンは NVIDIA garak、MCP サーバ/スキルのレッドチーミングは Tencent AI-Infra-Guard。

プロジェクト push ひとことで
mlflow ~26k 06 ML ライフサイクル+LLM/agent 評価機能
promptfoo ~22k 06 CLI ファーストの評価+レッドチーミング
Opik(comet-ml) ~19k 06 評価+トレース(観測と兼任)
DeepEval ~16k 06 50+ 指標、エージェント特化
Phoenix(Arize) ~10k 06 OTel ネイティブのトレース+評価
garak(NVIDIA) ~8k 06 LLM 脆弱性スキャナ
AI-Infra-Guard(Tencent) ~3.8k 06 MCP サーバ/スキルのレッドチーミング

15. 監視・観測

本番で「agent が実際に何をしたか」を追う層。

第一候補は Langfuse(~28k)。OSS の LLM 観測でデファクト。トレース・評価・プロンプトのバージョン管理を一通り備え、「agent が実際に何を考えて、どのツールを、いくらかけて呼んだか」を後から追える。落ちたときの原因究明とコスト管理の両方をここで握れる。ゲートウェイと最適化まで統合したいなら TensorZero、OTel 計装で既存の観測基盤に寄せるなら OpenLLMetry / Logfire、評価と一体で使うなら Opik。

プロジェクト push ひとことで
Langfuse ~28k 06 OSS LLM 観測のデファクト。トレース/評価/プロンプト版管理
Opik ~19k 06 トレース/評価/ダッシュボード
TensorZero ~11k 06 ゲートウェイ+観測+最適化を統合
OpenLLMetry(traceloop) ~7k 05 LLM トレースの OTel 計装
Logfire(pydantic) ~4.3k 06 OTel ネイティブの観測

16. スキル層(L4/L7 と直結)

L0–L7 でいう L4(スキル)/L7(自己記述) の実体。

第一候補は公式の anthropics/skills(~146k)。スキルを「YAML フロントマター+手順書のディレクトリ」という決まった形に落とす規約で、L0–L7 でいう L4(委譲) の標準形そのもの。SKILL.md に「いつ使うか/手順/落とし穴/検証」を書いておくと、agent が必要なときだけ読み込む。型を強制することが品質の担保になる、という設計思想が L7 とも地続き。実務寄りの粒度が欲しければ addyosmani/agent-skills(23 個の本番級)、「AI 臭い」見た目を消すなら taste-skill、リポジトリを AI 向けに梱包するなら Repomix。

プロジェクト push ひとことで
anthropics/skills(公式) ~146k 05 スキルのディレクトリ形式。L4 の標準形
addyosmani/agent-skills ~48k 06 23 個の本番級エンジニアリング・スキル集
taste-skill ~32k 05 「AI 臭い」見た目を消す審美スキル
Repomix ~26k 06 リポジトリ全体を AI 向け単一ファイルに梱包

17. ビジュアルビルダー(ノーコード)

コードを書かずに agent パイプラインを組む層。

第一候補は Langflow(~149k)。ドラッグ&ドロップで agent パイプラインを組み、そのまま REST API として吐ける。非エンジニアと一緒に試作して、当たりがついたらコードに落とす、という流れが速い。アプリ基盤としてプラグイン市場まで含めて作り込むなら Dify(~144k)、汎用ワークフロー自動化に AI を足すなら n8n(~191k、このリストで最大)、より手軽な LangChain ビルダーは Flowise。

プロジェクト push ひとことで
n8n ~191k 06 400+ 連携のワークフロー自動化+AI ノード
Langflow ~149k 06 D&D パイプライン、REST 出力
Dify ~144k 06 LLM アプリ基盤、プラグイン市場
Flowise ~53k 06 より簡単なノーコード LangChain ビルダー
Sim ~29k 06 活発な D&D エージェント編成
Coze Studio(ByteDance) ~21k 04 RAG/プラグインのビジュアル基盤

おまけ:プロトコルと学習資料

  • プロトコル:MCP(modelcontextprotocol/servers ~87k、Linux Foundation 入り)、A2A(a2aproject/A2A ~24k、Google 発の agent 間通信)、AG-UI(ag-ui-protocol/ag-ui ~14k、agent↔user)。
  • 学習:12-factor-agents(~23k、ただし最終 push 2025-09=事実上の安定マニフェスト)、Stanford の generative_agents(~21k、2024-08 で更新停止)、microsoft/ai-agents-for-beginners(~66k)、huggingface/agents-course

個人的な見方

全件確認して一番はっきりしたのは、「フレームワーク単体の勝者」を探す問いが筋を外しているということ。生きてる OSS はどれも特定レイヤーの専門品で、勝負は「どう組むか」に移っている。L0–L7 でいえば、本体(1)に編成(2)と記憶(11)を足し、評価・観測(14・15)で L6 的な壁を固め、危ないコードはサンドボックス(13)で囲う、という地図になります。

そして、実際に確認して初めて分かる注意点も拾えました。約 100 リポ中、7 件が owner 移転、1 件(Bytebot)はアーカイブ済みでした。

  • 移転:opencode→anomalyco、Firecrawl→firecrawl、OpenHands→OpenHands org、goose→aaif-goose、MetaGPT→FoundationAgents、Marker→datalab-to、MindsDB→minds-platform。GitHub が自動リダイレクトするので動きはしますが、古いまとめ記事のリンクは現在の正式名とズレています。
  • アーカイブ:Bytebot(~11k スターでも開発停止)。スター数は人気の目安であって、生死の保証ではない。

だから締めはこれです。「まとめ記事のリンクを踏む前に、一度 gh api repos/<owner>/<repo> で最終 push と移転を確かめる」——この一手だけで、死んだ/移転した依存を踏む事故はかなり減ります。道具より先に、生存確認。なお本記事も 2026-06 のスナップショットで、この領域は週単位で動きます。

参考


この記事は「AIウォッチ」にも掲載しています。最先端AIを技術の中身まで読み解いています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?