はじめに
どうもやまぐちです。
みなさん、Difyでも画像を読み込ませることができることをご存知でしたか?
画像読み込み機能を有効にする方法がわかりづらいので意外と知らない方もいると思います。
今回は画像読み込みの機能に関して設定方法を説明して、最終的にテーブルの解釈をLLMにやってもらうまでを解説しようと思います。
Difyでチャットフローを作成する
画像アップロード有効化
チャットフロー詳細説明
LLMでの設定として、ビジョン機能を有効にしておいてください。
そしてモデルに関してはビジョン機能を持っているものを選択してください。
これで完成です。
結果
以下の論文に出てくるTable1を読み込ませて見ました。
(https://arxiv.org/pdf/2401.15884)
詳細な出力はこちら↓
この表は、いくつかの言語モデル(LMs)およびベースラインモデルの性能を異なるデータセット上で比較したものです。具体的には、PopQA、Bio、Pub、ARCの4つのデータセットにおける精度(Accuracy)やFactScoreの値が示されています。
LMs trained with propriety data:
LLama2-C13B: PopQA 20.0, Bio 55.9, Pub 49.4, ARC 38.4
Ret-LLama2-C13B: PopQA 51.8, Bio 79.9, Pub 56.1, ARC 37.9
ChatGPT: PopQA 29.3, Bio 71.8, Pub 50.1, ARC 75.3
Ret-ChatGPT: PopQA 50.8, Bio 54.7, Pub 75.3
Perplexity.ai: Bio 71.2
Baselines without retrieval:
LLama2-7B: PopQA 14.7, Bio 44.5, Pub 34.2, ARC 21.8
Alpaca7B: PopQA 23.6, Bio 45.8, Pub 49.8, ARC 45.0
LLama2-13B: PopQA 14.7, Bio 53.4, Pub 29.4, ARC 29.4
Alpaca13B: PopQA 24.4, Bio 50.2, Pub 55.5, ARC 54.9
CoVE65B: Bio 71.2
Baselines with retrieval:
LLama2-7B: PopQA 38.2, Bio 78.0, Pub 30.0, ARC 47.8
Alpaca7B: PopQA 46.7, Bio 76.6, Pub 40.2, ARC 48.0
SAIL: PopQA 45.7, Bio 77.5, Pub 47.2, ARC 48.4
LLama2-13B: PopQA 45.7, Bio 77.5, Pub 47.2, ARC 48.4
Alpaca13B: PopQA 46.1, Bio 77.1, Pub 51.1, ARC 57.6
LLama2-7B: RAG PopQA 37.7, Bio 44.9, Pub 9.1, ARC 23.8
CRAG: PopQA 39.8, Bio 47.7, Pub 9.1, ARC 28.1
Self-RAG*: PopQA 29.0, Bio 32.2, Pub, ARC
Self-CRAG: PopQA 49.0, Bio 59.1, Pub 40.0, ARC 39.0
SelfRAG-LLama2-7b: RAG PopQA 40.3, Bio 59.2, Pub 39.0, ARC 39.0
CRAG: PopQA 59.3, Bio 74.1, Pub 56.7, ARC 54.8
Self-RAG: PopQA 49.0, Bio 56.1, Pub 44.1, ARC 67.2
Self-CRAG: PopQA 61.8, Bio 86.2, Pub 74.4, ARC 67.2
この表から、Self-CRAGが多くのデータセットで高い精度を示していることがわかります。
特に、PopQA、Bio、Pub、ARCのすべてのデータセットで高い値を示しています。
まあまあいい感じですね。これは普通にChatGPTとかでもできるので凄さはないのですが、Difyで画像読み込みが使えることはできる幅が広がりますね!
最後に
Xをやっているので気になる方はフォローお願いします。