【LangSmith Skills】Claude Codeの性能が17%→92%

Posted at 2026-03-05

LangSmith CLI & Skills — AIコーディングエージェントによるエージェント開発の改善ループを実現する

はじめに

2026年3月4日、LangChainチームがLangSmith CLIとLangSmith Skillsを公開しました。

これは、LangSmithエコシステムにおけるトレーシング、デバッグ、テストセット構築、評価といったタスクを、AIコーディングエージェント（Claude Codeなど）が高精度に実行できるようにする仕組みです。

公式ブログによると、評価セットにおいてClaude Codeのタスク成功率が 17% → 92% に改善されたとのことです。

なお、同日に LangChain / LangGraph / Deep Agents 向けのSkillsも公開されています。Skillsの概念や仕組みの詳細については、以下の記事で解説していますので併せてご覧ください。

LangSmith CLIとは？

今回のリリースの中核にあるのが、新しい LangSmith CLI です。

LangSmith CLIはエージェントネイティブに設計されており、コーディングエージェント（および開発者）がターミナルからLangSmithのあらゆる操作を実行するための基盤を提供します。具体的には以下のような操作が可能です。

トレースの取得 — エージェントの実行履歴をクエリ・エクスポート
データセットのキュレーション — トレースから評価用データセットを構築
実験の実行 — データセットに対してエージェントを評価

LangChainチームは、今後のエージェント開発においてエージェントの改善ループ自体が別のエージェントによって駆動されるようになると考えており、ターミナルファーストのCLIがその基盤になると述べています。

CLIのインストール

curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh

LangSmith Skills

langsmith-skills リポジトリには、LangSmithのAIエンジニアリングにおける3つのコア領域に対応した3つのスキルが含まれています。

1. langsmith-trace（トレース）

既存コードへのトレーシングの追加と、トレースのクエリを行うスキルです。ヘルパースクリプト付きで、エージェントの実行を可視化します。

2. langsmith-dataset（データセット）

トレースから評価用のデータセット（テストケース）を構築するスキルです。ヘルパースクリプト付きで、体系的なテストセットを作成できます。

3. langsmith-evaluator（評価器）

データセットに対してカスタム評価器を作成するスキルです。ヘルパースクリプト付きで、エージェントの正確性を検証します。

すべてのスキルはPythonとTypeScriptの両方に対応しています。

Skillsの影響（ベンチマーク）

公式ブログが公開したベンチマーク結果は以下の通りです。

テスト	モデル	成功率
Claude Code（Skillsなし）	Sonnet 4.6	17%
Claude Code（Skillsあり）	Sonnet 4.6	92%

成功率はLangSmith Evaluationsを使用して計算されており、テストベンチマークのオープンソース化も予定されています。

LangChain Skillsとの比較

前回の記事で紹介したLangChain Skillsと合わせると、全体像は以下の通りです。

スキルセット	スキル数	Skills無し	Skills有り
LangChain Skills（LangChain / LangGraph / Deep Agents）	11個	25%	95%
LangSmith Skills（トレース / データセット / 評価）	3個	17%	92%

いずれもSonnet 4.6での計測です。

エージェント開発の好循環（Virtuous Cycle）

LangSmith Skillsの最大の価値は、LangChain Skillsと組み合わせることでエージェント開発の改善ループを完全にエージェント駆動で回せるようになる点です。

公式ブログでは以下のサイクルが紹介されています。

1. エージェントにトレーシングロジックを追加する
       ↓
2. エージェントを実行してトレースを生成し、動作をデバッグする
       ↓
3. 生成されたトレースから体系的なテストデータセットを作成する
       ↓
4. データセットに対して評価器を作成し、エージェントの正確性を検証する
       ↓
5. 評価結果と人間のフィードバックに基づいてエージェントを改善する
       ↓
    （1に戻る）

このループは、AIコーディングエージェントがLangChain SkillsとLangSmith Skillsを活用して自律的に回すことができます。

インストール方法

Vercelが提供する npx skills CLI を使ってインストールします。

ローカルインストール（現在のプロジェクトのみ）

npx skills add langchain-ai/langsmith-skills --skill '*' --yes

グローバルインストール（全プロジェクト共通）

npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global

特定のエージェントに紐づける（例: Claude Code）

npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global

install.sh を使う方法

# Claude Code にローカルインストール（デフォルト）
./install.sh

# Claude Code にグローバルインストール
./install.sh --global

# Deep Agents CLI にインストール
./install.sh --deepagents

# Deep Agents CLI にグローバルインストール
./install.sh --deepagents --global

環境変数の設定

LangSmith Skillsを使用するには、以下の環境変数が必要です。

export LANGSMITH_API_KEY=<your-key>
export OPENAI_API_KEY=<your-key>       # OpenAIモデルを使う場合
export ANTHROPIC_API_KEY=<your-key>    # Anthropicモデルを使う場合

LangChain Skills + LangSmith Skills を両方入れる

LangChain SkillsとLangSmith Skillsは同時に導入できます。両方を入れることで、エージェント構築から評価改善までの全サイクルをカバーできます。

# LangChain Skills（エージェント構築）
npx skills add langchain-ai/langchain-skills --agent claude-code --skill '*' --yes --global

# LangSmith Skills（観測・評価）
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global

まとめ

項目	内容
公開日	2026年3月4日
リポジトリ（Skills）	langchain-ai/langsmith-skills
リポジトリ（CLI）	langchain-ai/langsmith-cli
スキル数	3個（trace / dataset / evaluator）
効果	Claude Code成功率 17% → 92%（Sonnet 4.6）
インストール	`npx skills add langchain-ai/langsmith-skills`
対応エージェント	Claude Code、Cursor、Windsurf、Deep Agents CLIなど

LangSmith CLIとSkillsにより、エージェントの「構築 → トレース → テスト → 評価 → 改善」という開発サイクルをターミナルから一貫して実行できるようになりました。LangChain Skillsと合わせて導入し、エージェント開発の生産性を向上させましょう。

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up