LangSmith CLI & Skills — AIコーディングエージェントによるエージェント開発の改善ループを実現する
はじめに
2026年3月4日、LangChainチームがLangSmith CLIとLangSmith Skillsを公開しました。
これは、LangSmithエコシステムにおけるトレーシング、デバッグ、テストセット構築、評価といったタスクを、AIコーディングエージェント(Claude Codeなど)が高精度に実行できるようにする仕組みです。
公式ブログによると、評価セットにおいてClaude Codeのタスク成功率が 17% → 92% に改善されたとのことです。
なお、同日に LangChain / LangGraph / Deep Agents 向けのSkillsも公開されています。Skillsの概念や仕組みの詳細については、以下の記事で解説していますので併せてご覧ください。
LangSmith CLIとは?
今回のリリースの中核にあるのが、新しい LangSmith CLI です。
LangSmith CLIはエージェントネイティブに設計されており、コーディングエージェント(および開発者)がターミナルからLangSmithのあらゆる操作を実行するための基盤を提供します。具体的には以下のような操作が可能です。
- トレースの取得 — エージェントの実行履歴をクエリ・エクスポート
- データセットのキュレーション — トレースから評価用データセットを構築
- 実験の実行 — データセットに対してエージェントを評価
LangChainチームは、今後のエージェント開発においてエージェントの改善ループ自体が別のエージェントによって駆動されるようになると考えており、ターミナルファーストのCLIがその基盤になると述べています。
CLIのインストール
curl -sSL https://raw.githubusercontent.com/langchain-ai/langsmith-cli/main/scripts/install.sh | sh
LangSmith Skills
langsmith-skills リポジトリには、LangSmithのAIエンジニアリングにおける3つのコア領域に対応した3つのスキルが含まれています。
1. langsmith-trace(トレース)
既存コードへのトレーシングの追加と、トレースのクエリを行うスキルです。ヘルパースクリプト付きで、エージェントの実行を可視化します。
2. langsmith-dataset(データセット)
トレースから評価用のデータセット(テストケース)を構築するスキルです。ヘルパースクリプト付きで、体系的なテストセットを作成できます。
3. langsmith-evaluator(評価器)
データセットに対してカスタム評価器を作成するスキルです。ヘルパースクリプト付きで、エージェントの正確性を検証します。
すべてのスキルはPythonとTypeScriptの両方に対応しています。
Skillsの影響(ベンチマーク)
公式ブログが公開したベンチマーク結果は以下の通りです。
| テスト | モデル | 成功率 |
|---|---|---|
| Claude Code(Skillsなし) | Sonnet 4.6 | 17% |
| Claude Code(Skillsあり) | Sonnet 4.6 | 92% |
成功率はLangSmith Evaluationsを使用して計算されており、テストベンチマークのオープンソース化も予定されています。
LangChain Skillsとの比較
前回の記事で紹介したLangChain Skillsと合わせると、全体像は以下の通りです。
| スキルセット | スキル数 | Skills無し | Skills有り |
|---|---|---|---|
| LangChain Skills(LangChain / LangGraph / Deep Agents) | 11個 | 25% | 95% |
| LangSmith Skills(トレース / データセット / 評価) | 3個 | 17% | 92% |
いずれもSonnet 4.6での計測です。
エージェント開発の好循環(Virtuous Cycle)
LangSmith Skillsの最大の価値は、LangChain Skillsと組み合わせることでエージェント開発の改善ループを完全にエージェント駆動で回せるようになる点です。
公式ブログでは以下のサイクルが紹介されています。
1. エージェントにトレーシングロジックを追加する
↓
2. エージェントを実行してトレースを生成し、動作をデバッグする
↓
3. 生成されたトレースから体系的なテストデータセットを作成する
↓
4. データセットに対して評価器を作成し、エージェントの正確性を検証する
↓
5. 評価結果と人間のフィードバックに基づいてエージェントを改善する
↓
(1に戻る)
このループは、AIコーディングエージェントがLangChain SkillsとLangSmith Skillsを活用して自律的に回すことができます。
インストール方法
Vercelが提供する npx skills CLI を使ってインストールします。
ローカルインストール(現在のプロジェクトのみ)
npx skills add langchain-ai/langsmith-skills --skill '*' --yes
グローバルインストール(全プロジェクト共通)
npx skills add langchain-ai/langsmith-skills --skill '*' --yes --global
特定のエージェントに紐づける(例: Claude Code)
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global
install.sh を使う方法
# Claude Code にローカルインストール(デフォルト)
./install.sh
# Claude Code にグローバルインストール
./install.sh --global
# Deep Agents CLI にインストール
./install.sh --deepagents
# Deep Agents CLI にグローバルインストール
./install.sh --deepagents --global
環境変数の設定
LangSmith Skillsを使用するには、以下の環境変数が必要です。
export LANGSMITH_API_KEY=<your-key>
export OPENAI_API_KEY=<your-key> # OpenAIモデルを使う場合
export ANTHROPIC_API_KEY=<your-key> # Anthropicモデルを使う場合
LangChain Skills + LangSmith Skills を両方入れる
LangChain SkillsとLangSmith Skillsは同時に導入できます。両方を入れることで、エージェント構築から評価改善までの全サイクルをカバーできます。
# LangChain Skills(エージェント構築)
npx skills add langchain-ai/langchain-skills --agent claude-code --skill '*' --yes --global
# LangSmith Skills(観測・評価)
npx skills add langchain-ai/langsmith-skills --agent claude-code --skill '*' --yes --global
まとめ
| 項目 | 内容 |
|---|---|
| 公開日 | 2026年3月4日 |
| リポジトリ(Skills) | langchain-ai/langsmith-skills |
| リポジトリ(CLI) | langchain-ai/langsmith-cli |
| スキル数 | 3個(trace / dataset / evaluator) |
| 効果 | Claude Code成功率 17% → 92%(Sonnet 4.6) |
| インストール | npx skills add langchain-ai/langsmith-skills |
| 対応エージェント | Claude Code、Cursor、Windsurf、Deep Agents CLIなど |
LangSmith CLIとSkillsにより、エージェントの「構築 → トレース → テスト → 評価 → 改善」という開発サイクルをターミナルから一貫して実行できるようになりました。LangChain Skillsと合わせて導入し、エージェント開発の生産性を向上させましょう。