いつも記事を読んでいただきありがとうございます!
モブエンジニア(@mob-engineer)です!
今回は2025.03.25(火)に開催した**Langfuse Night #2 - 初心者から熟練者まで -**に参加しましたので、アウトプットとしてイベントレポートを執筆しました。
初見の方ですサクッと読めるように平易な表現で執筆しておりますので、お気軽に読んでいただければ幸いです。
誤字脱字・わかりづらい表現に関しては極力なくすように心がけていますが、リアルタイムで執筆しているため誤字脱字があるかもしれません。
イベントページ
目次
- Langfuse 入門ハンズオン
- Langfuse v3のAWSセルフホストを徹底的にコスト削減してみた(仮)
- Langfuseを活用して、評価用プロンプトを育てていく
- Langfuse v3をGoogle Cloud上にTerraformでサクッとホスト
- まとめ
Langfuse 入門ハンズオン
参考サイト
- 個人的考察
- AIアプリに関しては簡単に実装できる
- Langfuseの設定に関しても数クリックでできるので初心者でも戸惑わない
- ハンズオンマニュアルが神過ぎるな🐱
- Datasetを設定してみたがいい感じの回答が出てこないわね(繰り返さないといけないのかしら)
- 個人的に生成AIが出力した結果に関して簡単に評価できるのはうれしい
- 画面に関して見やすいなぁと思いました
- まとめ
- Langfuseやるやる詐欺状態だったので今回のハンズオンでイメージができた
- 個人的に生成AIアプリ開発⇒評価をやってみたいなぁと思いました
- 社内教育・ハンズオン会でやってみてもよさそうだなぁ
Langfuse v3のAWSセルフホストを徹底的にコスト削減してみた(仮)
参考サイト
- 自己紹介
- ゆるふわエンジニア(ガチ勢)の方
- 愛犬家の方
- Langfuse V3とは何か
- (個人的考察)個人開発でバリバリ利用したいなぁ
- Langfuseは意外と利用されていない(コスト面など)
- V2⇒V3へ変わると約140ドル変わる
- Langfuseを動かす環境
- ECSが多いかと思いますが、、、
- 利用するのであればGravitonを利用するのがベター
- Clickhouseを利用すれば脱ECS化できるのでは
- 単純に実装することは難しい
- Click Houseのストレージ
- ざっくり言えばテーブルデータとメタデータが利用できる
- テーブルデータを利用すればEFS保存時間を削減できる
- 実装するためにはConfigを変える必要がある
- Dockerで立ち上げるためのリポジトリを作成してれている
- (個人的考察)さすがすぎる!!
- 注意事項
- S3エンドポイントを経由しましょう
- ネットワーク抜けするためにNAT Gatewayを利用すると高額なコストが...
- Coldストレージだと立ち上がりが遅くなるよ
- S3エンドポイントを経由しましょう
- 実際はどうなのか
- 全てのコスト削減案を実装してもそこまでコスト削減できない。。。
- 楽しいからやってみるといった精神で進める
Langfuseを活用して、評価用プロンプトを育てていく
登壇資料
参考サイト
- 自己紹介
- ガオ所属のエンジニアの方
- RAGASについて
- LLMから出力された回答精度を測定してくれる
- 期待した回答がある前提で評価基準がある
- ドメイン知識をもとにした正確な評価がある
- (個人的考察)線形回帰的なアルゴリズムでないと使いづらいって感じなのね
- LLM評価の課題
- RAGASと人力評価を別々に行うのはきつい
- 評価プロンプトの継続的改善を考える必要がある
-
とにかく一元管理したい
- 解決策としてLLM-as-a-judgeがベター
- LLM-as-a-judge運用ルール
- 最初は人力評価のみ
- そこから人力評価+RAGAS評価フレームワークを利用
- 進歩していけばカスタム評価用プロンプトを実装していく
- 評価ロジックのソースコード化
- 最終的にはLangfuseに移行していく
- LLM-as-a-judgeの利用イメージ
- Template:プロンプトテンプレートの設定
- 評価用のプロンプト設定はこちら
- 過去のトレース結果に対してもLLM-as-a-judgeを利用することができる
- (個人的考察)過去にさかのぼってできるのはうれしいわね
- Template:プロンプトテンプレートの設定
- まとめ
- LLM-as-a-judgeが登場しても評価用プロンプトの作成は人の手が必要
- (個人的考察)チューニングは人力ですよね~
Langfuse v3をGoogle Cloud上にTerraformでサクッとホスト
参考サイト
- 自己紹介
- 価格.com所属の生成Aエンジニアの方
- 大学時代に無機ELの研究を行っている
- プロンプト追跡を行う目的
- 一つのLLMに一気にプロンプトを与えるより複数のLLMに役割分担させた方が良い結果が出る
- とはいえすべてのLLMが期待通りの出力をするか確認するのは
- (個人的考察)しらみつぶしのような作業になりそう
- そのうえで、Langfuseのプロンプト追跡ツールは重要
- Langfuse以外のプロンプト追跡
- W&B WeaveやLangSmithなどがあるがオープンソースなLangfuseのほうが自由度が高い
- 他ユーザーとの共有であればCloudがベター
- アーキテクチャあれこれ
- (個人的考察)Google Cloudを選んだ理由がキニナル
- Terraform化しようとしたら実行環境(Mac)の影響でうまくできないことも
- (個人的考察)環境依存問題は分かりみが深いな
まとめ
Langfuseに関してやるやる詐欺状態でしたので、本セミナーを通じてLangfuseの解像度を上げることができました。そのうえで、今回得た知見をアウトプットしていきたいと思います!!