G’s【技術記事書いてみた】 Advent Calendar 2025の22日目を担当します@philosophy_noteです。
2021年に東京LAB11期を卒業して現在は卒業生の方が起業した会社でエンジニアとして働いています。
アドベントカレンダーは4回目です。
過去の記事はこちら↓
2024年
2023年
2021年
この記事の執筆理由
「AIエージェント元年」との呼び声から始まった2025年は、様々な技術・概念が発表されました。
毎週のように新しい発表があり、ただ闇雲に試していくうちにあっという間に2025年も終わりに差し掛かろうとしています。
この記事はそんな私が2025年に試した記事をまとめたものになります。
自分自身の振り返りが主な執筆目的ですが、
記事を読んで知らない技術に触れるきっかけになれば幸いです。
項目ごとの表示順位は私が触っている/いた時間が概ね長い順番になります。
従って、必ずしも技術的な優劣や重要度を示すものではありません。
コーディングツール
GitHub Copilot
GitHub Copilotは、GitHubとOpenAIが共同開発したAIペアプログラマーです。
2025年より前からコード補完機能として提供されていましたが、今年に入り
VSCode経由で自律的開発ができるGitHub Copilot Agent Modeがプレビュー公開されました。
たまたま、生成AIが作った無茶ぶりLTテーマに挑む!正夢LTグランプリでLT登壇する必要があり、早速使用しました。
ボケとツッコミを活用したペアプログラミングでバグを解消するというのが私のLTのテーマで、Copilotと漫才をしながら実装を試みました(途中でボケとツッコミが入れ替わりました苦笑)
その後も業務で一番利用しているコーディングツールになりました。
リクエスト数の上限はありますが、
OpenAI,Anthropic,Googleといった主要な開発元の言語モデルは発表されてからすぐに試すことができます。
MCPやスラッシュコマンドなど周辺機能についても一通り試すことができるため、発表されてからすぐに試したいケースや特別なカスタマイズをしたいケースがない限りGitHub Copilotで概ね賄える印象です。
Devin
GitHub Copilotは「AIと伴走」しながら開発するエージェントですが、
Devinは「AIに委託」できるエージェントです。
GitHub CopilotやCodexでもクラウド上である程度の自律的開発は可能ですが、Devinはセットアップすれば複数レポジトリを参照して人力でのローカル環境開発を再現できるため、他のエンジニアに開発を委託することとほぼ変わらない感覚で開発を進めることができます。
加えて個人的に気に入っているのは「Devinを育てる」UXです。
DevinにはKnowledgeという機能があります。
Knowledgeはすべてのセッションで参照が可能なヒント、アドバイス、指示の集合です。
事前に人間が用意した内容に加え、セッションごとに学習したことや上手くできなかったことをフィードバックすることでKnowledgeに追加した方が良いことをDevinからSuggestしてくれます。
蓄積したKnowledgeを元に他のセッションでも活用してくれるため、実行するほどに精度が上がっていく点が魅力的です。
また、セッション内でどのKnowledgeを使用したかも確認できるため、高い透明性で開発を進めることができます。
さらにDeepWikiやAsk Devinによりエンジニア向けのドキュメント管理やオンボーディングの効率化が実現できました。
Codex
OpenAIが開発しているコーディングツールです。
今年5月にリサーチプレビュー版としてリリースされました。
Devinを触る前にクラウドで自律的開発を使用する際に使用していました。
その後もChatGPTの有料プランを契約していれば追加料金なしで使用できるため、伴走型のコーディングツールとしてGitHub Copilotと併用しながら使用しています。
AnthropicやGoogle Geminiと比較すると速度が遅い点が気になりますが、品質が安定している印象です。
Claude Code
Anthropicが開発しているAIコーディング支援ツールです。
X(旧 Twitter)などで一番使われている印象ですが、
上述した3点である程度賄えているため、あまり使用していません。
音や通知を簡単に出せるHook機能が便利なのでGitHub CopilotやCodexでも導入してほしいです。
12月に入ってからAgent Skillsがかなり評判になっており、少し前までClaude Code限定だったので年末年始に触ろうと思いましたが、
先日オープンスタンダードとして公開され、GitHub Copilotでも対応され、Codexでも試験的に導入されたため、両者で試そうと思います。
v0
Vercelが提供するコーディングツールです。
Next.jsの開発元として知られるVercelが提供しているだけあって、プロトタイプ目的のフロントエンド開発で優れている印象です。
個人開発で使用しています。
Cursor
後述するMastraを活用したLLMエージェントの開発で4~5月ごろに利用しました。
rulesを設定してエージェントの出力精度の安定化やプロジェクトの概要を伝える点の重要性はCursorで学びました。MCPサーバーと接続した開発も初めて経験しました。
GitHub Copilotと役割が被るため、現在では使用していません。
AntiGravity
Googleが発表した開発環境/開発プラットフォームです。
1度しか試していませんが、指示を出してから成果物が完成するまでの時間は
一番短かったです。
加えて、ブラウザ拡張機能のAntigravity Browser Extensionが良かったです。他のコーディングエージェントだとブラウザ操作のMCPを活用してもフロントエンドの修正が思い通りに進まないことが多いので、この点が強みであると感じました。
Cline
1~2月に試しました。
他の方の使用例を参考にしながら、DeepSeekのAPIキーを活用して試してみました。
エージェント開発フレームワーク
Mastra
MastraはTypeScriptでAIエージェントを開発できるフレームワークです。
次のイベントで存在を知りました。
直接Next.jsに統合できるためフロントエンドとの結合が簡単に行える点が魅力です。
GWごろにPlaywrightやPerplexityのMCPサーバーを活用してブラウザ操作やWEB検索を実行するLLMエージェントの開発に取り組みました。
ドキュメントを参照できるMCPサーバーが提供されているため、
Cursorと接続することで最新のドキュメントを参照させながら開発を進めることができました。
加えて、作成したエージェントやワークフローをテストできるプレイグラウンドが提供されているため、
動作処理が非常に楽に行えました。
Strands Agents
AWS Summitの次の発表で知りました。
シンプルに書ける点が魅力的です。
AWSサービスということでS3に蓄積したHTMLファイルを取得して内容を回答するチャットボットを開発して遊びました。
LangChain/LangGraph
今年の冒頭に次の本を読んでWEB検索できるLLMエージェントに取り組んでいました。
開発したエージェントのデプロイ先としてLangServeを検討していました。
しかしながらデプロイ作業中に有料プランでないとデプロイできないことに気づき、泣く泣く諦めました。
WEB検索ができれば良く、前述したMastraで賄えたのでそれらの登場以降は使用していません。
本で学習していた時から時間が経過して、Functional APIが登場したり、10月についにv1.0が登場したので機会があれば改めて触ってみたいです。
概念・思想
MCP
MCPとはLLMにコンテキスト情報を提供する方法を標準化するオープンプロトコルです。
エージェントにツールを実装する際の課題として、SDKやフレームワークによって実装方法が異なる点がありましたが、接続仕様を共通化してツールの再利用性を高める目的でAnthropicが発表しました。
発表は2024年ですが、今年の3月ごろからClineやCursorでの利用を踏まえて見かける機会が増えた印象です。
これまでに使用して使い勝手の良かったMCPサーバーは次の通りです。
context7
例えばTailwindCSSは今年ver4が発表されましたが、
AIが学習しているデータセットにはVer3までの情報しか含まれておらず、
そのままコードを書かせると古い情報でコードを書いてしまいます。
(このハッカソンで直面しました)
context7は最新のドキュメントとコード例を提供するため、この問題を解決できます。
Sentry
エラーのトレースを取得してAIに解析させることができます。
Backlog
Devinと連携するとチケット番号を投げただけでPR開発してくれます。
個人的にはドキュメントの更新ツールが欲しいです。
Chrome DevTools MCP
コーディングエージェントにブラウザ操作やスクリーンショット取得をさせたり、コンソールログを取得が可能です。
動作確認や画面崩れの解決に使用しています。
AWS Documentation MCP Server
AWSのドキュメントを参照するMCPサーバーです。
WEBで検索する手間がかからずに欲しい情報が取得できます。
Agentic Coding
開発生産性Conference2025が7月に開催されました。
当日は参加できませんでしたが、次の資料が大変勉強になりました。
ここまででAIにコードを書かせる経験はある程度積んできましたが、
複数の人間が関わる中で持続可能なソフトウェア開発を進める上で
これまでのソフトウェア開発で得られた知識・経験則がそのまま活用できる一方で、
この点を踏まえて開発を進めないとAIの能力を十分に発揮することができない上に
人間の負担が増えるだけだということを強く実感しました。
その後、12月に次のイベントで最新版にアップデートされたオフライン発表を聴くことができました。
SDD/Kiro
SDDとはSpecification-Driven Development、スペック駆動開発の略称です。開発の中心に「仕様(specs)」を据えそれに基づきコードとテストを生成する開発手法です。
7月中旬にAWSから発表されたKiroはこのSDDを実践するためのツールとして提供されています。
発表された当初はWaiting Listに登録して順番待ちの状態でした。
そうした中で8月、Claude Code Meetup Japan #2に参加しました。
イベント名にある通り、Claude Codeの情報目当てで参加しましたが、cc-sddの作成者の方の次の発表でKiroとともに発表されたSDD(Specification-Driven Development、スペック駆動開発)の概念を学ぶことができました。
設計や計画を考慮した開発の重要性は先月学ぶことができたので
KiroのWaiting Listが解除された後、早速触り、要件定義やタスク分解まで実行できる点を確認しました。
しかしながら、コードの生成速度の遅さが気になりました。
次の記事にあるようにドキュメント生成までをKiroが実行し、コード生成をClaude Codeが実行することも試しました。
また、先ほど述べたcc-sddも試しました。
こちらは最初からClaude CodeやCodexやGitHub Copilotからも呼び出せることに加え、
ドキュメントも日本語で生成してくれる点が使いやすかったです。
それでも既存の開発の延長線で使うとドキュメントが大量に生成される点や
手戻りが発生した場合の対応が難しいため、本格的な採用は見送りました。
Kiroも一回しか触っていませんが、11月に一般提供されるとともにプロパティベーステストなどの新機能の提供も開始されたようなので年末年始に触ってみたいです。
その他
DeepResearch
ChatGPTやGeminiに内包されている機能になりますが、個人的に
一番インパクトが大きかったので記載します。
2023年の年末~2024年の初旬にかけてChatGPTでWEB検索する方法を試していましたが、
品質や検索時間の点で思うような成果を上げることができませんでした。
その点、DeepResearchは検索時間はかかりますが、
ユーザーの入力に対してWEB検索を実施し、
取得した結果を元に次の行動を自律的に決定することができる点が非常に印象的でした。
自律性とループの組み合わせによるエージェントという概念を強く実感しました。
その後、ChatGPTではブラウザ操作などができるOperatorにDeepResearchが統合され、「エージェントモード」として提供されるようになりました。
それでも調査目的で使用する際にはDeepResearchを最初に選択しています。
NotebookLM
NotebookLMとは、ソースを分析して複雑な内容を明確にし、ユーザーのコンテンツを変革するGoogleが提供するAIリサーチツール&思考パートナーです。
PDFやウェブサイトURLから自分用の学習ノートを気軽に作成できる点だけで非常に便利だと感じていました。12月現在で日本語での動画生成やスライド作成まで対応しました。
技術の公式ドキュメントを取り込んだノートブックを作成して専用の質問応答システムを活用したり、他の人に説明する際にスライド資料を作成したりと大変重宝しています。
Qodo Merge(旧 PR-Agent)
GitHub Actions経由でAIにコードレビューを依頼できるサービスです。
昨年まではCodeRabbitを使用していましたが、OSS版がアーカイブされてしまったため、途中から乗り換えました。
出力がランダムで英語になることがあり、調整に苦労しましたが、利用していたOpenAIのモデルを4o-miniからo3-miniに変更したところ、日本語で安定したレビューを出せるようになりました。多少の金額増加でチューニングの手間が省けたため、モデル性能が解決することを身をもって感じました。
Amazon Bedrock
AWS Summitに参加して興味を持ちました。
それまでは単にモデルにアクセスしたいだけであればAnthropicのAPIを直接叩けば
良いのでは?と思っていましたが、
LLM Opsやガードレールなど周辺技術が提供されている点を知り、興味を持ちました。
また、Amazon Bedrock AgentCoreがプレビュー版で公開されました。
この時は東京リージョンで使用できませんでしたが、リージョンを変えてデプロイしました。
まだ触れていませんが、10月に東京リージョンでも正式利用が開始されたり、
AgentCore Browserが日本語対応するなど
新機能が続々と追加されているのでエージェントをデプロイする機会があれば再度情報を追いたいと思います。
また、RAG目的でAmazon Bedrock Knowledge BasesとOpenSearch Serviceを触りましたが、課金形態への理解が甘く、高額課金が発生しました。
課金アラートは設定していたのですが、別件で試していたことの関係でアラートに気付けませんでした。何かを試す際には定期的に意図しない課金が発生していないか確認する習慣がつきました。
Genspark
勉強会資料を作成する際に使用しました。
20分ほどでアニメーション付きのスライドを作成してくれました。
しかしながら、一部の箇所でレイアウト崩れが発生していたので
修正しようとしたところ、無料枠の上限に到達してしまい、
修正できませんでした。
RubyLLM
RubyLLMはRubyでLLMを単一のAPIで触るために開発されたライブラリです。
12月に次のLT登壇する際に発見しました。
RubyでシンプルにLLMに触れる点が特徴です。
モデルもOpenAI、Anthropic、Google Geminiなどに対応していますが、利用するモデル名を指定するだけで切り替えられる点が魅力的です。
2026年に向けて
今年の経験を踏まえ、来年強化したい点です
1.AI駆動開発
コーディングはAIに任せ、
人間はAIが能力を最大限に発揮できる環境を整える、及び
AIが作成する大量の成果物を効率的かつ早期段階でレビューする体制が必要になると感じています。
この点、AWSはAI 駆動開発ライフサイクル(AI-DLC)を提唱しています。
ウォーターフォールやアジャイルといった開発手法に並び立つ概念として紹介されており、気軽に導入できるものではない印象です。
しかしながら、エンジニアの業務がパラダイムシフトすることを考えると大胆に変える選択肢もあると感じます。
レビューはどのような解決が良いのか悩んでいる段階です。
Claude CodeやCodexでもレビューに関するスラッシュコマンドがデフォルトで存在しているので実行するだけであれば簡単にできますが、既存の開発ルールやドキュメントをコンテキストとしてなるべく効率的な形でどのように渡せばよいのかを注視したいです。
2.LLMエージェント開発
コーディングエージェントの観点で言えば、「AIエージェント元年」と呼べるかもしれませんが、開発以外の分野でエージェントが導入されるフェーズは思ったよりも進まなかった印象です。
来年は専門領域のエージェントの開発が進むとは思いますが、個人的にはスーパーエージェントが他のエージェントを束ねて人間が判断/閲覧するのは最小限になる形態が加速すると感じています。
終わりに
今回振り返って痛感したのは技術にとりあえず触るだけとなっている点が多く、
一つに深めるという点が不十分である点です。
多くの技術が登場しており、どれにBetすれば良いか簡単に判断できないので仕方がないですが、
仕事でも個人でも深くコミットした技術がない点は反省すべき点だと感じました。
来年は効率化や価値創造を達成できるように目的を明確に定めて向き合いたいと思います。
