BuriKaigi2026に参加してきました
1月10日、富山国際会議場で行われたBuriKaigi2026に参加してきました。(イベント自体は9日、10日の2Days)目当てはこちら、「さくらのAI Engineで学ぶ生成AIトレンドハンズオン」です。
今回はこれの参加レポートです。…が、先に結論を書いてしまうとレベルが高くてあまりついていけなかった。 正確に言うとnodeやらSQLやらの知識がほとんどなかったので、それらを調べながら進めているうちに三合目あたりで終わってしまった感じ。正直バリューの低い記事になると思いますが悪しからず…。
一緒に受講した宮川さんの記事が1000倍詳しいかと思いますのでぜひそちらを読んでいただきたいです。
ハンズオンシナリオ
基本パターン
RAG
https://zenn.dev/kameoncloud/articles/74239c7ca5057f
https://zenn.dev/sakura_internet/articles/50045f5ede9ee3
https://zenn.dev/sakura_internet/articles/c7aac7ae88d927
https://zenn.dev/sakura_internet/articles/1be556798a4688
ここからA2A~MCPと続いていくのですがRAGの部分しか到達できなかったのでここまで。(ちなみに参加者で完走したのは一人だけでした。)
どんなことをやっている?
- PDFから本文テキストを取り出す
- 長すぎるのでちょうどいい長さに分割(チャンク化)する
- チャンクをTiDBに保存(自動で埋め込みベクトルが作られる)
- 質問が来たら質問文もベクトル化してTiDBで近い文章を検索
- 見つかった文章を添えてさくらのAIEngineに回答を作ってもらう
TiDBの自動埋め込みが便利
RAGは本来enbedding(埋め込み)のAPIを呼んでベクトル化してベクトルDBに入れるという工程が必要だが、TiDBというサービスではテーブルに本文を入れると自動でベクトル化してくれるので、下ごしらえの工程が楽。(Difyみたいなサービスのほうがもっと楽と言えば楽だがそれらを利用できない場合もあるだろう)
チャンクの分割が重要
チャンクの区切り方でかなり精度が変わってくる、らしい。LLMに丸投げよりは前処理に凝ったほうがよさそうな感じ。オーバーラップの数字などをいじって出力結果を比較したかったところだが、時間的余裕がなかった。無念。
Web読み込みはマークダウン化すると精度が上がる
Webはhtmlをそのまま読むとフッターやら広告やら余計なものを拾ってくるのでひと加工が有効。Jina AI Readerというサービスでマークダウン化するといいらしい。これもそうでない場合と比較したかったところだが時間的余裕が以下略。
感想
正直、Difyのほうが圧倒的に楽じゃね?とエラーメッセージと格闘しながら何度思ったことか分からないが、それはあくまでRAGチャットボットを作ったりする初歩のユースケースであって、ここからClaudeCodeなどを利用し、MCPを介したAIエージェントなどでユースケースを拡張していく場合はDifyなどのフレーム内では難しいこともあるだろう。こちらの道を歩むのであればまだまだ学ぶことが多くて気が遠くなりそうだ。