Mastraイベントレポ
だいぶざっくりメモです。
あとでちゃんと書きます。
LayerXでのMastra活用事例
- 実運用はまだだが、開発中
- LayerXにおいてmastraを使う理由とエージェント開発の課題について
- なぜmastraに注目しているのか
- AIエージェントのアーキテクチャを考えると、AIエージェントはハブの役割
- AI SDK, MCP, ToolCall, Memory…をつなぐのがエージェント
- エージェント自体が機能を持つのではなく、エージェントに機能を与えて行く形
- エージェント開発でほしい機能
- Chat, tool, mcp, observability, voice, workflow, rag, document loader, Enterprise, multistep-execution
- observability
- LLMのムズカシイところ:回答がランダム、結果が予測できない→評価は必須
- 今設定しているプロンプトはこれでいいのか?を観測・評価
- voiceは最近増えている, リアルタイム
- LLMはテキストベースのものを理解・解釈しやすいので、Document Loaderは必要
- enterprise:事業者向け・SaaS向けのテナント分離機能
- mastraはdocument loader/enterprise以外をカバーできている
- mastraはエージェント開発の重要なところをほぼカバーしてくれる
- なぜTypescript?
- AI SDK, MAstra, Next.js, Type-safe, AI-coding, LLM !== machine learning
- next.jsはサーバーとフロントエンドをシームレスに結合できる
- フロントとバックの型を統一してやり取りできる
- 型安全があると。AIが書いたコードをある程度安全に利用できる
- もちろん別途理解することは大事
- Pythonが羨ましくなる瞬間
- 豊富なライブラリ、ドキュメント処理、データ処理
- 特にdocument loaderは特権
- mastraのいいところ
- VercelのAI SDKをベースにしている
- フロントとバックのやり取りを含めた実装がシンプルかつわかりやすい
- useChatだけで実装が終わるレベル
- 以前はRAGでLlamaIndex依存だったが、最近なくなった
- 独自のRAG実装になり、シンプルに
- Chunking, Embedding対応
- GraphRAG, Rerankも可能
- Workflows
- vNextになってUIが一新、直感的に使いやすくなった
- suspend, resumeサポートなので、human in the loopも可能
- Zod schema定義のみでType-safe workflow実装可能
- Memory
- チャット履歴を簡単に保存・復旧可能
- 履歴のrecallもできる
- Contextを与えやすい
- Trace, Evals
- Langfuseなどとサクッと繋がる
- プロンプト結果を評価して監視できる仕組みもある
- テキストの数値化による評価の数値化
- VercelのAI SDKをベースにしている
- mastraに期待する機能
- RAG
- Scalability, データ増量対応
- Hybrid Search, Typesense, Meilisearch, 複数のStoreを混ぜた検索
- Workflow
- Agentic workflow, エージェントがツールを組み合わせてワークフローを作ってほしい
- scalability, 実行エンジンのスケールアウト
- security
- prevent agent hack, エージェントに対する攻撃から防御
- multi tenant isolation, テナントごとに環境の分割
- access context, toolcallやmcpにユーザーの権限を組み込んで安全なデータアクセスをしたい
- RAG
- まとめ
- AI Agent開発は今までと違う概念や考慮事項がたくさんあるので実導入は大変
- mastraはそういった概念をほぼ網羅されており、迷うことなく開発しやすい
mastra journey
- mastraへのトラフィックは23%がアメリカ、19%が日本
- Python Trains, TS Ships
- 最近のアップデート
- Workflowの新しいバージョンをリリース
- ワークフローすべてのステップで、任意のワークフローステップの出力を次のステップの入力に送る
- ワークフローの実行中に何が起こっているかを可視化
- Parallels/Branching
- handsoffみたいなこともできるように
- Looping
- ワークフローの繰り返し処理が可能に
- サブワークフロー
- multi-agent architecture
- エージェントネットワークの構築
- 近い未来、これが主流になる
- Agent 2 Agent
- Bring your Auth
- 認証やマルチテナントには現在取組中
- 導入したい認証システムは基本的になんでも導入可能
- Memory
- より人間らしい記憶を持ち、より人間らしいエージェントへ
- 短期記憶、長期記憶、ワーキングメモリー、エピソード記憶、
- 何年分もの記憶がある場合、検索が重要
- エピソード記憶はチェックポイントを作成するようなもの、特定の地点に戻ることができる
- scalable, durable, everywhere
- クラウド環境場へのデプロイ
- Workflowの新しいバージョンをリリース
- まとめ
- また別のイベントも企画する
QA
- なぜ日本でmastraが人気可わかったか?
- 1.Typescript
- 2.ブログ記事を日本人が書いてくれた
- ユースケースは日本とアメリカで同じか?
- ほぼ同じだが、アメリカでは技術のギャップに不満が見られる
- 興味深いユースケースは?
- 航空宇宙コミュニティでロケット設計図作成?
- マルチモーダルに対する考え
- 文字、画像、音声には対応しており、今後も継続して導入する
- アプリケーションとの組み合わせ次第
- LLMの勝者は?
- 誰かが他のAIを食いつぶさない限り、真の勝者は出ない
- AI開発ツールは何を使っている?
- Cursorのみ、CursorもWindsurfも使っている
- IDEについてはAIゲームのようなもの、非決定論的
- プロンプトの書き方次第でも使い手の印象は異なる
- 世界のAIエージェントビジネスはどのように競争優位性を築く?
- 1つはEval
- vive codingの時代だが、優れたエージェントはEvalに力を入れている
- 成功ではなく、完全な失敗をテストする
- 一度で終わりではない、定期的に行う
- すべての評価を自動化することはできない、モデルの仕様やプロンプトにおいて多くの専門知識が必要
- 新鮮なアイデアと深いドメイン知識が違いを生み出す
- 評価を3つのカテゴリに分ける
- 関数の記述
- LLM as a judge
- 人間による評価
- ユーザーを囲い込む戦略について
- パーソナライゼーションが重要
- 鍵はMemory
- 今後の戦略、日本のユーザー獲得へ
- 再度のイベント開催
- ドキュメント・ほんの翻訳
- ハッカソンを開催
- マルチエージェントの開発と評価について
- まずは最終結果の入力と出力評価といった簡単なところから始める
- そこから具体的な中身の評価に入っていく、個別の評価を行う
- 自動評価から初めて、最終的にはカスタムメトリックで
- AIにどのくらいの開発を任せているか?
- バイブコーディングではなく、タスクリストを作成する
- rulesやagent.mdsなどを用いてタスクリストを作成し、IDEで実装していく
- これを繰り返すことが重要
- 停止ボタンは友達
- 何回も繰り返して、完成させていく
- 開発者二人が作ったMastraエージェントは?
- 確定申告。いつもは4時間、今年は作るのに6時間かかったおかげで30分で終わった
- Discordのメッセージを読んで感情を伝えるエージェント