2026、エージェントのharnessを自分で組む──全レイヤーの「今も生きてる」OSSを確認して並べる

Posted at 2026-06-08

最先端AIを技術の中身まで読み解く「AIウォッチ」の記事です。元ネタは anmolbaranwal 氏の "Open Source Toolkit for Building AI Agents in 2026"（17 レイヤー・各レイヤー第一候補＋代替）。ただしこの手の「まとめ」はリンク切れ・リポジトリ移転・開発停止であっという間に腐る。そこで元記事に出てくる約 100 リポジトリを 2026-06 に gh api で全件確認し、スター数・最終 push・リポジトリ移転・アーカイブを確認したうえで並べ直しています。★は概数、push は最終更新月（確認した値）。各レイヤーは「第一候補を少し深く＋代替は一覧で」の構成です。

「エージェントのフレームワーク、結局どれを使えばいいの？」という問いは、2026 年にはもう古い。単一フレームワークの勝者を選ぶ時代は終わり、harness をレイヤーごとに組む時代になった。本体、編成、記憶、ツール接続、サンドボックス、評価、観測──さらに UI・音声・スクレイピング・文書処理まで、実装の全レイヤーにそれぞれ専門の OSS がいる。

この記事の狙いは2つ。(1) 実装の全景を 17 レイヤーで網羅する（完全性）。(2) その全部を実際に叩いて「今も生きてるか」を確かめる（鮮度）。まとめ記事のリンクを鵜呑みにせず、移転・停止・アーカイブを潰してあります。

まず：harness は「層」で考える

以前の記事で、指示システムを L0–L7 の能力ラダーとして整理しました。あれは「制約をどのチャンネルに乗せるか」の物差し。今回はその姉妹編で、実際に組むための"部品カタログ"です。harness を「ちゃんと走る（実行）／走り続ける（状態）／安定して走る（ガバナンス）」の三層で捉える見方が、ここでもそのまま効きます。

以下、元記事の 17 レイヤーを 3 グループにまとめて、各レイヤーを確認した値つきで並べます。

A. 本体と組み立て

1. オープンソースのコーディングエージェント本体

ターミナル/IDE で実際にコードを書く本体。競争が最も激しく、ほぼ全部が直近に push されている。

第一候補は opencode（現 anomalyco/opencode, ~169k）。このカテゴリで最大のスターを持ち、ターミナルネイティブ・75+ プロバイダ対応・並列セッションが強み。特定の IDE に縛られず、どのモデルでも同じ操作感で回せるのが効く。ただし元の sst/opencode から owner が移転しているので、古い記事のリンクは現在の正式名とズレている点に注意。用途で選ぶなら、Google 系は gemini-cli、OpenAI 公式は codex、VS Code の中で承認しながら進めたいなら cline、Git ベースのペアプロは aider。

プロジェクト	★	push	ひとことで
opencode（現 `anomalyco/opencode`）	~169k	06	ターミナルネイティブ・75+プロバイダ・並列セッション。`sst/opencode` から移転
gemini-cli（google-gemini）	~105k	06	Google 製、1M トークン文脈
codex（openai）	~88k	06	OpenAI 公式ターミナルエージェント
OpenHands（現 `OpenHands/OpenHands`）	~76k	06	ブラウジング・PR まで。`All-Hands-AI/` から移転
cline（VS Code 拡張）	~63k	06	ステップごとに承認
aider	~46k	05	Git ネイティブのペアプロ
goose（現 `aaif-goose/goose`）	~46k	06	Block 発、MCP ファースト。owner 移転

2. 編成（オーケストレーション）

「計画→ツール→状態保持→サブエージェント」を回す土台。

第一候補は LangGraph（~34k）。agent の動きを「状態を持つグラフ」として書き、各ノードでチェックポイントを取れるのが核心。途中で止めて人間が判断し、また再開する（human-in-the-loop）が素直に書けるので、「失敗したら戻る・分岐する」を作り込みたい本番系で強い。デファクトの一つで資料も多い。好みで選ぶなら、TypeScript 主体なら Mastra、構造化出力の型安全を重視するなら Pydantic AI、永続記憶込みの軽さなら Agno、Google スタックなら ADK。

プロジェクト	★	push	ひとことで
Agno	~40k	06	軽量＋永続記憶、AgentOS（FastAPI）同梱
LangGraph	~34k	06	状態グラフ＋チェックポイント。デファクトの一つ
Mastra	~25k	06	TypeScript ファースト、RAG/観測/MCP 込み
Deep Agents（LangGraph 上）	~24k	06	計画・FS ツール・サブエージェント・文脈圧縮
Google ADK	~20k	06	公式 ADK、Vertex AI 連携
Pydantic AI	~17k	06	型安全・構造化出力の検証が強み
PocketFlow	~11k	03	100 行ミニマル LLM フレームワーク

3. コーディングエージェント harness

本体を「自律して回る」状態にする骨組み（計画・FS・サブエージェント・文脈圧縮）。

第一候補は Deep Agents（LangGraph 上, ~24k）。コーディング agent を「自律で長く回る」状態にするための骨組みで、計画立て・ファイルシステム系ツール・サブエージェント・文脈の圧縮を最初から備える。ゼロから harness を書くより、ここを土台にして足りない部品を足すほうが圧倒的に速い。「説明から決定的・再現可能な harness を生成する」発想で攻めるなら Archon、達成度で agent 自体が進化する outcome 駆動なら Hive も候補。

プロジェクト	★	push	ひとことで
Archon	~22k	06	説明から決定的・再現可能な harness を生成
browser-harness（browser-use）	~14k	05	LLM が CDP を直叩きする自己修復 harness
Deep Agents	~24k	06	（上の編成と兼任）計画＋サブエージェント
Hive	~10k	05	目標達成度で agent が進化する outcome 駆動

4. マルチエージェント・フレームワーク

複数 agent を役割分担/並列で動かす。

第一候補は CrewAI（~53k）。「リサーチ役・執筆役・レビュー役」のように役割（role）を切って協調させる発想が直感的で、最初の一歩を踏みやすい。さらに Flows でイベント駆動の制御も足せるので、試作から本番まで地続きで持っていける。会話駆動を細かく組むなら AG2（AutoGen コミュニティ fork）、長期サポート狙いなら Microsoft Agent Framework。なお MetaGPT（~68k）は FoundationAgents/ に移転かつ最終 push が 2026-01 とやや停滞気味なので、採用時は活発度を確認したい。

プロジェクト	★	push	ひとことで
MetaGPT（現 `FoundationAgents/MetaGPT`）	~68k	01	PM/設計/実装の役割で「ソフト会社」を模擬。移転＋やや停滞
CrewAI	~53k	06	ロール分担。Flows でイベント駆動も
AgentScope（Alibaba）	~26k	06	音声・MCP・A2A 対応の本番志向
OWL（camel-ai）	~20k	05	計画＋実行、GAIA ベンチで上位
Microsoft Agent Framework	~11k	06	AutoGen の後継（長期サポート志向）
AG2（AutoGen コミュ fork）	~4.6k	06	conversable agents / group chat

B. 能力レイヤー（外の世界に触る）

5. Computer Use（画面操作）

API のないアプリを「画面ごと」操作させる層。

第一候補は UI-TARS Desktop（bytedance, ~36k）。スクリーンショットからボタンや入力欄の位置を当てる「GUI 接地」モデルを積んでいて、API の用意されていないデスクトップアプリでも agent に操作させられる。同リポに計画寄りの Agent TARS も同梱。VM サンドボックスで安全に回すなら cua、視覚駆動で Web/モバイルまで扱うなら Midscene。注意点として、人気の Bytebot（~11k）はアーカイブ済み（最終 push 2025-09）なので新規採用は避けたい。

プロジェクト	★	push	ひとことで
UI-TARS Desktop（bytedance）	~36k	05	GUI 接地モデル。Agent TARS も同リポ
cua（trycua）	~17k	06	macOS/Linux の VM サンドボックスで agent 実行
Midscene	~14k	06	視覚駆動の UI 自動化（Web/Android/iOS）
Agent-S（simular-ai）	~12k	05	階層計画＋過去対話の知識ベース
~~Bytebot~~	~11k	2025-09	⚠️ アーカイブ済み（開発停止）。採用注意

6. ブラウザ自動化

ヘッドレスブラウザを agent に運転させる層。

第一候補は Browser Use（~97k）。LLM ファーストで設計されたブラウザ agent で、ページ構造を読んで「次にどこをクリックし、何を入力するか」を LLM に決めさせる。スクリプトを書き下す従来の自動化と違い、レイアウトが多少変わっても破綻しにくいのが強み。Desktop 版やクラウド実行の Box など派生も活発。act/extract/observe/agent の粒度で制御したいなら Stagehand、画像認識で未知サイトを攻める swarm なら Skyvern、Playwright をそのまま MCP 化するなら playwright-mcp。

プロジェクト	★	push	ひとことで
Browser Use	~97k	06	LLM ファーストのブラウザ agent。Desktop/Box 派生も
Scrapling	~59k	06	セレクタ漂移に強い・anti-bot 回避のスクレイパ
playwright-mcp（microsoft）	~33k	05	Playwright を MCP サーバ化
Stagehand（browserbase）	~23k	06	act/extract/observe/agent の4プリミティブ
Skyvern	~22k	06	画像認識で未知サイトを攻める agent swarm

7. Web スクレイピング・取り込み

外部の情報を agent の文脈に流し込む入口。

第一候補は Firecrawl（現 firecrawl/firecrawl, ~128k）。サイトをクロールして LLM 用の Markdown / JSON に整える定番で、JS レンダリングや認証付きページも扱える。RAG の前段として「とりあえずこれで取り込む」の第一候補。mendableai/ から移転済みなのでリンクは要確認。APIキー不要でセルフホストしたいなら crawl4ai、構造化抽出をプロンプトで指示するなら ScrapeGraphAI、GitHub リポを丸ごとプロンプト化するなら Gitingest、URL 頭に足すだけの手軽さなら Jina Reader。

プロジェクト	★	push	ひとことで
Firecrawl（現 `firecrawl/firecrawl`）	~128k	06	サイト→LLM 用 Markdown/JSON。`mendableai/` から移転
crawl4ai	~68k	06	セルフホスト・APIキー不要・RAG 最適化
ScrapeGraphAI	~27k	06	プロンプト駆動で構造化抽出
Gitingest	~15k	06	GitHub リポ→プロンプト向け抽出
Jina Reader	~11k	05	URL 頭に `r.jina.ai/` で Markdown 化

8. 文書処理（RAG の入口）

PDF やオフィス文書を「LLM が読める構造」に変える層。

第一候補は Docling（IBM, ~61k）。PDF やオフィス文書を、表・レイアウト・読み順を保ったまま「DocTags」という構造に変換する。Granite-DocLing VLM を使い、崩れがちな表組みや段組みも精度よく拾えるので、RAG の前処理で効く。表・数式の抽出に特化するなら MinerU、解析から分割・検索まで一気通貫が欲しいなら RAGFlow（~82k）、多言語 OCR は PaddleOCR、160+ コネクタの RAG 基盤なら LlamaIndex。Marker は datalab-to/ に移転済み。

プロジェクト	★	push	ひとことで
RAGFlow	~82k	06	DeepDoc の解析→分割→検索の end-to-end
PaddleOCR	~79k	06	100+ 言語 OCR
MinerU	~66k	06	PDF の表・数式抽出が SOTA
Docling（IBM）	~61k	06	Granite-DocLing VLM で DocTags 変換
LlamaIndex	~50k	05	160+ コネクタの RAG フレームワーク
Marker（現 `datalab-to/marker`）	~36k	05	PDF/EPUB/PPTX→Markdown。移転
Unstructured	~15k	06	65+ 形式（メール・表・画像）

9. 音声エージェント

聞く・話すを実時間で扱う層。

第一候補は Pipecat（~13k）。STT→LLM→TTS のパイプラインを実時間でつなぐ「音声 agent のための編成 framework」で、割り込み（barge-in）や遅延管理など、音声特有の難所を引き受けてくれる。電話・音声ボットを組むときの土台。WebRTC 込みのインフラまで欲しいなら LiveKit Agents（ChatGPT Voice でも使用）、文字起こし単体は Whisper（~101k）、声クローンは fish-speech / GPT-SoVITS / CosyVoice。

プロジェクト	★	push	ひとことで
Whisper（openai）	~101k	04	多言語 STT の定番
GPT-SoVITS	~58k	04	少数音声から声クローン
fish-speech	~31k	06	多言語ゼロショット音声クローン
CosyVoice（Alibaba）	~21k	05	多言語ゼロショット生成
Pipecat	~13k	06	STT/LLM/TTS をつなぐ実時間音声 framework
LiveKit Agents	~11k	06	WebRTC、ChatGPT Voice でも使われる
Moonshine	~8k	06	低遅延・オンデバイス STT

10. フロントエンド・UI

エージェントを人に見せる層。

第一候補は CopilotKit（~32k）。単なるチャット UI の貼り付けではなく、agent がアプリの状態を読みながら画面を組み立てる「生成 UI（generative UI）」までやれるのが他と違う点。React の hooks でフロント側の状態やアクションを agent の文脈に渡し、逆に agent の出力を UI コンポーネントとして描画できる。裏の LangGraph / CrewAI ともつながるので、「裏の編成」と「表の画面」を一本で通したいときの第一候補。ベンダー中立に薄く使うなら vercel/ai（AI SDK）、生成 UI 部品に特化するなら tambo、headless で組むなら assistant-ui。

プロジェクト	★	push	ひとことで
vercel/ai（AI SDK）	~25k	06	ストリーミング/ツール呼び出し、Next.js 最適
CopilotKit	~32k	06	チャット UI＋hooks＋生成 UI
tambo	~11k	06	生成 UI コンポーネント特化の React SDK
assistant-ui	~10k	06	チャット UI の headless プリミティブ
TanStack/ai	~2.7k	06	ベンダー中立・モジュラな AI SDK
agent-native（BuilderIO）	~448	06	agent と UI が同じ action model を共有

C. 土台（記憶・接続・実行・評価・観測）

11. 記憶（状態層）

長いタスク・複数セッションをまたいで「覚えておく」。

第一候補は mem0（~57k）。会話から「覚えておくべき事実」を抽出し、圧縮した自然言語として保持・検索する最大手。文脈ウィンドウに全部を詰め込む代わりに、必要な記憶だけを取り出して注入するので、長いタスクや複数セッションをまたいだ一貫性を保ちやすい。事実の有効期間まで持つ時間的知識グラフが要るなら Graphiti、agent 横断の記憶 API なら Supermemory、システムプロンプトに記憶を焼き込む発想の元祖は Letta（旧 MemGPT）、大規模コーパス向けの決定的グラフ記憶は Cognee。

プロジェクト	★	push	ひとことで
mem0	~57k	06	重要な事実を抽出し圧縮した自然言語で保持。最大手
Graphiti（getzep）	~27k	05	事実の有効期間を持つ時間的知識グラフ
Supermemory	~25k	06	エージェント横断の記憶 API
Letta（旧 MemGPT）	~23k	05	記憶をシステムプロンプトに焼き込む。発想の元祖
Cognee	~18k	06	大規模コーパス向けの決定的な知識グラフ記憶

12. ツール接続・MCP

モデルに「外の世界」を触らせる。MCP が標準として定着。

第一候補は Composio（~29k）。Gmail や Slack など外部サービスへの接続を、OAuth 管理込みで agent に渡せる統合層。Tool Router で「今のタスクに必要な道具だけ」を選んで露出できるので、ツールを増やすほど文脈が膨らむ問題を抑えられる。モデル側を 100+ プロバイダで統一して使うなら LiteLLM（~49k、こちらはモデル・ゲートウェイの事実上の標準）、SQL でデータ源を触るなら MindsDB（minds-platform に移転）、ガードレール込みのゲートウェイなら Portkey。MCP 自体はもう標準として定着しています。

プロジェクト	★	push	ひとことで
LiteLLM	~49k	06	100+ プロバイダを統一 API＋コスト追跡。事実上の標準
MindsDB（現 `mindsdb/minds-platform`）	~39k	06	SQL で 200+ データ源にアクセス。移転
Composio	~29k	06	OAuth 管理込みの統合層、Tool Router
Portkey AI Gateway	~12k	05	1,600+ モデル＋ガードレール
ACI（aipotheosis-labs）	~4.8k	05	600+ ツールを単一 MCP サーバで

13. サンドボックス・コード実行

生成コードを隔離して実行する層。ClickHouse の記事の「判定の壁」を安全に回すなら外せない。

第一候補は E2B（~12k）。agent が書いた怪しいコードを、Firecracker microVM の中で ~150ms 起動・独立カーネルで隔離実行する。ClickHouse の記事でいう「判定の壁」を安全に回すための土台で、ホストを巻き込まずに「とりあえず動かして結果で判定する」が成立する。永続環境と Git 連携が欲しいなら Daytona（~73k）、クラウド非依存でローカルに置くなら microsandbox、coding/GUI/browser を一括で扱う基盤なら OpenSandbox。下回りの microVM 基盤そのものは Firecracker。

プロジェクト	★	push	ひとことで
Daytona	~73k	06	~90ms 起動の永続環境、Git 連携
Firecracker（microVM 基盤）	~35k	06	E2B 等の下回り
E2B	~12k	06	Firecracker microVM、~150ms 起動・独立カーネル
OpenSandbox（Alibaba）	~11k	06	coding/GUI/browser agent 対応の基盤
microsandbox	~6k	06	クラウド非依存のローカル・プログラマブル

14. テスト・評価

agent の出力が「正しいか」を機械で測る層。

第一候補は DeepEval（~16k）。LLM / agent 向けに 50+ の評価指標を持ち、「この出力は正しいか」を pytest 的に書いて回せる。出力の良し悪しを人手のレビューに頼らず CI に組み込めるのが核で、これが L0–L7 でいう L6（確定的な壁）を作る材料になる。CLI ファーストで回すなら promptfoo、OTel ネイティブでトレースと一体なら Phoenix、評価＋トレース両取りは Opik、脆弱性スキャンは NVIDIA garak、MCP サーバ/スキルのレッドチーミングは Tencent AI-Infra-Guard。

プロジェクト	★	push	ひとことで
mlflow	~26k	06	ML ライフサイクル＋LLM/agent 評価機能
promptfoo	~22k	06	CLI ファーストの評価＋レッドチーミング
Opik（comet-ml）	~19k	06	評価＋トレース（観測と兼任）
DeepEval	~16k	06	50+ 指標、エージェント特化
Phoenix（Arize）	~10k	06	OTel ネイティブのトレース＋評価
garak（NVIDIA）	~8k	06	LLM 脆弱性スキャナ
AI-Infra-Guard（Tencent）	~3.8k	06	MCP サーバ/スキルのレッドチーミング

15. 監視・観測

本番で「agent が実際に何をしたか」を追う層。

第一候補は Langfuse（~28k）。OSS の LLM 観測でデファクト。トレース・評価・プロンプトのバージョン管理を一通り備え、「agent が実際に何を考えて、どのツールを、いくらかけて呼んだか」を後から追える。落ちたときの原因究明とコスト管理の両方をここで握れる。ゲートウェイと最適化まで統合したいなら TensorZero、OTel 計装で既存の観測基盤に寄せるなら OpenLLMetry / Logfire、評価と一体で使うなら Opik。

プロジェクト	★	push	ひとことで
Langfuse	~28k	06	OSS LLM 観測のデファクト。トレース/評価/プロンプト版管理
Opik	~19k	06	トレース/評価/ダッシュボード
TensorZero	~11k	06	ゲートウェイ＋観測＋最適化を統合
OpenLLMetry（traceloop）	~7k	05	LLM トレースの OTel 計装
Logfire（pydantic）	~4.3k	06	OTel ネイティブの観測

16. スキル層（L4/L7 と直結）

L0–L7 でいう L4（スキル）/L7（自己記述）の実体。

第一候補は公式の anthropics/skills（~146k）。スキルを「YAML フロントマター＋手順書のディレクトリ」という決まった形に落とす規約で、L0–L7 でいう L4（委譲）の標準形そのもの。SKILL.md に「いつ使うか／手順／落とし穴／検証」を書いておくと、agent が必要なときだけ読み込む。型を強制することが品質の担保になる、という設計思想が L7 とも地続き。実務寄りの粒度が欲しければ addyosmani/agent-skills（23 個の本番級）、「AI 臭い」見た目を消すなら taste-skill、リポジトリを AI 向けに梱包するなら Repomix。

プロジェクト	★	push	ひとことで
anthropics/skills（公式）	~146k	05	スキルのディレクトリ形式。L4 の標準形
addyosmani/agent-skills	~48k	06	23 個の本番級エンジニアリング・スキル集
taste-skill	~32k	05	「AI 臭い」見た目を消す審美スキル
Repomix	~26k	06	リポジトリ全体を AI 向け単一ファイルに梱包

17. ビジュアルビルダー（ノーコード）

コードを書かずに agent パイプラインを組む層。

第一候補は Langflow（~149k）。ドラッグ&ドロップで agent パイプラインを組み、そのまま REST API として吐ける。非エンジニアと一緒に試作して、当たりがついたらコードに落とす、という流れが速い。アプリ基盤としてプラグイン市場まで含めて作り込むなら Dify（~144k）、汎用ワークフロー自動化に AI を足すなら n8n（~191k、このリストで最大）、より手軽な LangChain ビルダーは Flowise。

プロジェクト	★	push	ひとことで
n8n	~191k	06	400+ 連携のワークフロー自動化＋AI ノード
Langflow	~149k	06	D&D パイプライン、REST 出力
Dify	~144k	06	LLM アプリ基盤、プラグイン市場
Flowise	~53k	06	より簡単なノーコード LangChain ビルダー
Sim	~29k	06	活発な D&D エージェント編成
Coze Studio（ByteDance）	~21k	04	RAG/プラグインのビジュアル基盤

おまけ：プロトコルと学習資料

プロトコル：MCP（modelcontextprotocol/servers ~87k、Linux Foundation 入り）、A2A（a2aproject/A2A ~24k、Google 発の agent 間通信）、AG-UI（ag-ui-protocol/ag-ui ~14k、agent↔user）。
学習：12-factor-agents（~23k、ただし最終 push 2025-09＝事実上の安定マニフェスト）、Stanford の generative_agents（~21k、2024-08 で更新停止）、microsoft/ai-agents-for-beginners（~66k）、huggingface/agents-course。

個人的な見方

全件確認して一番はっきりしたのは、「フレームワーク単体の勝者」を探す問いが筋を外しているということ。生きてる OSS はどれも特定レイヤーの専門品で、勝負は「どう組むか」に移っている。L0–L7 でいえば、本体（1）に編成（2）と記憶（11）を足し、評価・観測（14・15）で L6 的な壁を固め、危ないコードはサンドボックス（13）で囲う、という地図になります。

そして、実際に確認して初めて分かる注意点も拾えました。約 100 リポ中、7 件が owner 移転、1 件（Bytebot）はアーカイブ済みでした。

移転：opencode→anomalyco、Firecrawl→firecrawl、OpenHands→OpenHands org、goose→aaif-goose、MetaGPT→FoundationAgents、Marker→datalab-to、MindsDB→minds-platform。GitHub が自動リダイレクトするので動きはしますが、古いまとめ記事のリンクは現在の正式名とズレています。
アーカイブ：Bytebot（~11k スターでも開発停止）。スター数は人気の目安であって、生死の保証ではない。

だから締めはこれです。「まとめ記事のリンクを踏む前に、一度 gh api repos/<owner>/<repo> で最終 push と移転を確かめる」——この一手だけで、死んだ/移転した依存を踏む事故はかなり減ります。道具より先に、生存確認。なお本記事も 2026-06 のスナップショットで、この領域は週単位で動きます。

参考

元ネタ（一次・一覧の出典）: Open Source Toolkit for Building AI Agents in 2026 — anmolbaranwal (dev.to)
姉妹編（harness の能力ラダー）: あなたのCLAUDE.mdは今どのレベル？ L0–L7（AIウォッチ）
数値の出典: 本文の ★（スター数）・最終 push・移転/アーカイブは、全リポジトリに gh api repos/{owner}/{repo} を実行して確認（2026-06 時点で確認した値）

この記事は「AIウォッチ」にも掲載しています。最先端AIを技術の中身まで読み解いています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up