user:
LLMに何か答えてもらったときに、その答えを、LLM自身がどのくらい自信を持っているか、数値として出力することはできますか?
assistant:
現状のLLM(大規模言語モデル)は、直接的に「この回答の信頼度は〇〇%」のような数値を出力することはできません。その理由として、以下のような点が挙げられます。
1. LLMの確率分布は次の単語の予測に関するもの
LLMは、与えられたコンテキストに対して「次に来る単語(トークン)の確率分布」を計算しています。この確率は単語レベルのものであり、回答全体の正確性や信頼度を直接示すものではありません。
2. 自信スコアはタスク依存
「どのくらい自信があるか?」は、質問の種類によって異なります。例えば:
-
事実ベースの質問(例:「2024年のオリンピックはどこで開催された?」)
→ これは明確な正解があるため、外部データと照合すれば信頼度を測れる。 -
創造的な質問(例:「面白い小説のアイデアを考えて?」)
→ ここでは「正解」という概念が曖昧なので、自信スコアを出すのは難しい。 -
数学的・論理的な質問(例:「この数式の解を求めよ」)
→ 計算結果が正しいかどうかをチェックすることで自信スコアを推定できる。
3. 間接的に自信を推定する方法
完全な数値化は難しいですが、以下のようなアプローチを使うことで、LLMの回答の信頼度を推定することは可能です。
(1) 言語モデルのロジット値(対数確率)を見る
モデルが各単語をどのくらいの確率で選択したかを見ることで、「この回答にどれくらい確信があるか」を間接的に推測できます。ただし、トークン単位の確率なので、全体の回答の信頼性とは必ずしも一致しません。
(2) 外部データベースと照合する
例えば、WikipediaやGoogle検索などの信頼できる情報源と比較して、モデルの回答が一致するかどうかをチェックする方法があります。
(3) 複数回の応答を比較する
同じ質問を複数回投げて、モデルの回答がどの程度ブレるかを測定することで、一貫性をチェックできます。一貫して同じ答えが出るなら、信頼度が高いと考えられます。
(4) 「自信度を聞く」プロンプトを使う
モデル自身に「この回答の信頼度はどのくらい?」と尋ねる方法もあります。完全な保証はできませんが、補助的な手段として使えます。
結論
現時点では、LLMが「この回答の信頼度は〇〇%」と明確に数値化することはできません。しかし、ロジット値の分析や外部情報との照合、応答の一貫性チェックなどを活用することで、ある程度の信頼度評価を行うことは可能です。
Pythonを使って、トークン確率を取得する方法などに興味がありますか?
user:
言語モデルのロジット値(対数確率)を見る方法について興味があります。
assistant:
言語モデルのロジット値(対数確率)を見ることで、モデルが各トークンをどの程度の確信をもって生成したかを分析できます。具体的には、 トークンごとの確率(softmax後の値)やロジット(softmax前の値)を取得 し、それを指標として回答の信頼性を推定する方法です。
方法: 言語モデルのロジット値を取得する
以下のような方法でロジット値を取得できます。
1. Hugging Face Transformers を用いる
Hugging Face の transformers
ライブラリを使えば、ロジット値を簡単に取得できます。
サンプルコード(GPT-2を使用)
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# モデルとトークナイザーのロード
model_name = "gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
# 入力テキスト
input_text = "The capital of France is"
# トークナイズ
inputs = tokenizer(input_text, return_tensors="pt")
# ロジット値の取得
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits # [batch_size, seq_length, vocab_size]
# 直近のトークン(最後のトークン)に対する確率分布
last_token_logits = logits[0, -1, :]
probs = torch.nn.functional.softmax(last_token_logits, dim=-1)
# 上位5つの候補とその確率
top_probs, top_indices = torch.topk(probs, 5)
top_tokens = [tokenizer.decode(idx) for idx in top_indices]
# 結果表示
for token, prob in zip(top_tokens, top_probs.tolist()):
print(f"Token: {token} | Probability: {prob:.4f}")
出力例
Token: Paris | Probability: 0.79
Token: London | Probability: 0.05
Token: Rome | Probability: 0.03
Token: Berlin | Probability: 0.02
Token: Madrid | Probability: 0.01
この場合、「Paris」の確率が高いので、モデルは「The capital of France is Paris」と続く可能性が最も高いと考えていることがわかります。
2. ロジット値を使った信頼度推定
ロジット値や確率を使って、回答の信頼度を推定する方法として、以下のような指標が考えられます。
(1) 平均対数確率(Log Probability)
文章全体の確率を求め、 各トークンの対数確率の平均 を計算すると、「この回答の全体的な信頼度」を測れます。
log_probs = torch.log(probs)
mean_log_prob = log_probs.mean().item()
print(f"Mean Log Probability: {mean_log_prob:.4f}")
値が 大きい(=0に近い)ほど自信がある ことを示します。
(2) 確率エントロピー
エントロピーを計算することで、モデルの不確実性を定量化できます。
entropy = -torch.sum(probs * log_probs).item()
print(f"Entropy: {entropy:.4f}")
エントロピーが 低いほど、モデルが自信を持っている ことを示します。
応用: 回答の一貫性チェック
- 質問に対して複数回モデルを実行し、確率のばらつきを測る(分散が大きいほど不確実)
- 異なるモデル(GPT-2, GPT-3, LLaMAなど)で同じ質問を処理し、確率を比較する
- 人間が正解を知っている場合、期待される正解のトークン確率を確認する
まとめ
- ロジット値(softmax前の値)を取得し、確率を計算することで、モデルの自信度を推定できる
- 各トークンの対数確率を平均することで、回答全体の信頼度を測る
- エントロピーを計算すれば、回答の不確実性を数値化できる
- この情報を使って、モデルの出力をより客観的に評価できる
この方法を実際に試してみますか?もし具体的なデータで実験したい場合、サンプルの質問やテキストを教えてもらえれば、それに合わせたコードを用意できます!
user:
Azure OpenAI でそのロジット値を算出することはできますか?
assistant:
Azure OpenAI Service では、 デフォルトではロジット値(対数確率)を直接取得できません。しかし、 logprobs
オプションを有効にすれば、各トークンの対数確率を取得 できます。
Azure OpenAI API でロジット値(対数確率)を取得する方法
Azure OpenAI Service は、基本的に OpenAI API (gpt-4
, gpt-3.5-turbo
など) と同じ仕様です。そのため、 logprobs
オプションを使えば、各トークンの対数確率を取得できます。
1. logprobs
を有効にした API リクエスト
Azure OpenAI API でロジット値を取得するには、 logprobs=True
を指定します。
Python サンプルコード(Azure OpenAI)
import openai
# Azure OpenAI の設定
AZURE_OPENAI_ENDPOINT = "https://YOUR_AZURE_OPENAI_RESOURCE.openai.azure.com/"
API_KEY = "YOUR_API_KEY"
DEPLOYMENT_NAME = "YOUR_DEPLOYMENT_NAME" # Azure OpenAI で作成したデプロイ名
openai.api_base = AZURE_OPENAI_ENDPOINT
openai.api_type = "azure"
openai.api_key = API_KEY
openai.api_version = "2023-12-01-preview" # 最新バージョンを指定
# API リクエスト
response = openai.ChatCompletion.create(
engine=DEPLOYMENT_NAME, # Azure OpenAI では "model" ではなく "engine"
messages=[{"role": "user", "content": "What is the capital of France?"}],
max_tokens=10,
logprobs=True, # ログ確率を取得
)
# 結果の確認
for choice in response["choices"]:
for token_info in choice["logprobs"]["content"]:
token = token_info["token"]
logprob = token_info["logprob"]
print(f"Token: {token}, Log Probability: {logprob:.4f}")
2. 出力の例
このリクエストを実行すると、以下のような出力が得られます。
Token: Paris, Log Probability: -0.2
Token: ., Log Probability: -1.8
-
"Paris"
の対数確率 (logprob
) が-0.2
であり、これは高い確率を示す(logprob
の値が 0 に近いほど確信が高い)。 -
"."
の対数確率が-1.8
なので、やや不確実ではあるが自然な選択肢。
3. logprobs
のデータ構造
Azure OpenAI API の logprobs
には、以下の情報が含まれます。
-
"token"
: 生成されたトークン -
"logprob"
: そのトークンの対数確率 -
"top_logprobs"
: トップN
個のトークンとその対数確率(オプション)
例:
{
"choices": [
{
"logprobs": {
"content": [
{
"token": " Paris",
"logprob": -0.2,
"top_logprobs": [
{"token": " Paris", "logprob": -0.2},
{"token": " London", "logprob": -2.5},
{"token": " Rome", "logprob": -3.0}
]
}
]
}
}
]
}
この "top_logprobs"
を使うと、 モデルが他にどの選択肢をどの確率で考えていたか も取得できます。
4. 信頼度の評価
Azure OpenAI で logprobs
を取得できれば、次のような方法で回答の信頼度を評価できます。
(1) 平均対数確率
各トークンの logprob
を平均して、回答全体の信頼度を算出する。
logprobs = [token_info["logprob"] for token_info in response["choices"][0]["logprobs"]["content"]]
mean_logprob = sum(logprobs) / len(logprobs)
print(f"Mean Log Probability: {mean_logprob:.4f}")
値が 0 に近いほど確信が高い。
(2) 確率のばらつき(標準偏差)
import numpy as np
std_logprob = np.std(logprobs)
print(f"Standard Deviation of Log Probability: {std_logprob:.4f}")
ばらつきが大きいほど、不確実な単語が混ざっている 可能性がある。
(3) トップ N
の比較
top_logprobs
を分析して、最も確率が高い単語と次点との差分を見る。
first_prob = response["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0]["logprob"]
second_prob = response["choices"][0]["logprobs"]["content"][0]["top_logprobs"][1]["logprob"]
confidence_gap = first_prob - second_prob
print(f"Confidence Gap: {confidence_gap:.4f}")
値が大きいほど、 トップの単語が圧倒的に選ばれている ことを示し、確信度が高いと推定できる。
5. まとめ
✅ Azure OpenAI でも logprobs=True
を指定すればロジット値(対数確率)を取得可能
✅ 取得した対数確率を用いて、回答の信頼度を定量的に評価できる
✅ top_logprobs
を使えば、他の可能性との比較が可能
この方法を試したい場合、 Azure OpenAI の API を設定した Python 環境はありますか?
もし準備が必要なら、環境構築や logprobs
の実験を一緒に進めることもできますよ!
user:
"「はい」か「いいえ」で答えてください。日本一高い山は富士山ですか?"
と質問したら
Token: は, Log Probability: -0.0000
Token: い, Log Probability: -0.0000
と返ってきました。
assistant:
logprob
が -0.0000
という値で返ってくるのは、 モデルがそのトークンをほぼ100%の確率で選んだ ことを意味します。実際の logprob
の計算は以下のようになっています:
[
\text{Probability} = e^{\text{logprob}}
]
なので、 logprob ≈ 0
だと、 e^0 = 1
となり、確率 100% に近い値になります。つまり、 モデルが「はい」を非常に確信を持って選択した ということです。
1. logprob
がほぼ0になる理由
このケースでは、
-
「はい」
という回答が 極めて自然で、他の選択肢より圧倒的に可能性が高い -
「はい」か「いいえ」で答えてください。
というプロンプトが 強い制約 になっており、モデルが確信を持ちやすい
という2つの要因が影響していると考えられます。
2. ほかの可能性を知る (top_logprobs
)
もし 「いいえ」などの他の選択肢と確率を比較したい 場合、 top_logprobs
を見てみると面白いかもしれません。
次のようなコードを使えば、 「はい」以外の候補 も確認できます。
response = openai.ChatCompletion.create(
engine=DEPLOYMENT_NAME,
messages=[{"role": "user", "content": "「はい」か「いいえ」で答えてください。日本一高い山は富士山ですか?"}],
max_tokens=2,
logprobs=True,
)
# 各トークンの top_logprobs を取得
for token_info in response["choices"][0]["logprobs"]["content"]:
print(f"Token: {token_info['token']}, Log Probability: {token_info['logprob']:.4f}")
if "top_logprobs" in token_info:
for alt in token_info["top_logprobs"]:
print(f" Alternative: {alt['token']}, Log Probability: {alt['logprob']:.4f}")
この出力を見ることで、例えば:
Token: は, Log Probability: -0.0000
Alternative: い, Log Probability: -3.5
Token: い, Log Probability: -0.0000
Alternative: え, Log Probability: -4.2
のようになっていた場合、「はい」の logprob ≈ 0
に対し、「いいえ」は logprob ≈ -3.5
なので、
[
\text{e}^{-3.5} \approx 0.03
]
つまり、 「はい」の確率が 97% 以上、「いいえ」の確率が 3% 以下 ということになります。
3. 確信度が高すぎる場合の対処
もし、すべてのケースで logprob
が -0.0000 になってしまい、信頼度の分析がしにくい 場合は、次のような方法を試すと良いでしょう。
(1) より曖昧な質問をする
例えば、「日本一高い山は本当に富士山ですか?」 のように微妙に揺さぶると、 logprob
にばらつきが出るかもしれません。
(2) 回答の選択肢を変える
例えば、「本当にそう思いますか?」「絶対にそうですか?」 など、YES/NO 以外のバリエーションを含めると、モデルが少し迷う可能性があります。
(3) モデルのバージョンを変更
Azure OpenAI の gpt-4
と gpt-3.5-turbo
では、回答の確信度に違いがある ことが多いです。モデルを切り替えてみると、新たな発見があるかもしれません。
4. 結論
✅ logprob ≈ 0
なら、モデルは「ほぼ100%確信」している状態
✅ top_logprobs
を見れば、他の選択肢と比較できる
✅ 曖昧な質問にすると logprob
のバラつきを得られる可能性がある
この結果、どのように活用したいですか?
より細かい分析が必要なら、どんな実験をしてみたいか教えてください! 🚀
user:
"「はい」か「いいえ」で答えてください。宇宙一強いのはフリーザですか?"
と質問したら
Token: い, Log Probability: -0.0001
Token: い, Log Probability: 0.0000
Token: え, Log Probability: 0.0000
と返ってきました。
assistant:
この結果を見ると、モデルは 「いいえ」 を ほぼ100%の確率で選んでいる ことがわかります。
1. logprob
の解釈
得られたデータ:
Token: い, Log Probability: -0.0001
Token: い, Log Probability: 0.0000
Token: え, Log Probability: 0.0000
この場合:
-
「い」 の
logprob ≈ -0.0001
で ほぼ100%の確率 -
次の「い」 の
logprob = 0.0000
で 確実に選択 -
最後の「え」 も
logprob = 0.0000
で 確実に選択 - よって、「いいえ」 という回答が ほぼ100%の確率で選ばれている
logprob
が -0.0001
や 0.0000
という極端に高い確率になっているのは、
モデルがほぼ100%「いいえ」を確信している ためと考えられます。
2. 先ほどの質問との比較
前回の質問:「日本一高い山は富士山ですか?」 → 「はい」
が logprob ≈ 0.0000
今回の質問:「宇宙一強いのはフリーザですか?」 → 「いいえ」
が logprob ≈ 0.0000
この違いは、モデルの 「知識」や「一般的な認識」 によるものと考えられます。
-
「日本一高い山=富士山」は、事実として広く認識されている →
「はい」
に確信 -
「宇宙一強い=フリーザ」は、事実として確定しにくい(他のキャラがいる) →
「いいえ」
に確信
おそらく、モデルは 「フリーザより強いキャラ(例: 全王、ビルス)」 を学習しているため、「いいえ」と確信しているのでしょう。
3. さらに分析する方法
より詳細にモデルの信念を探るために、次の方法を試すのも面白いです。
(1) top_logprobs
を見て、他の候補を見る
for token_info in response["choices"][0]["logprobs"]["content"]:
print(f"Token: {token_info['token']}, Log Probability: {token_info['logprob']:.4f}")
if "top_logprobs" in token_info:
for alt in token_info["top_logprobs"]:
print(f" Alternative: {alt['token']}, Log Probability: {alt['logprob']:.4f}")
これを実行すると、例えば:
Token: い, Log Probability: -0.0001
Alternative: は, Log Probability: -3.2
Token: い, Log Probability: 0.0000
Token: え, Log Probability: 0.0000
のように 「はい」の確率が極端に低い ことが確認できるかもしれません。
(2) 質問のバリエーションを試す
以下のように質問を変えてみると、 確信度が変化するかも しれません。
質問例
-
「ドラゴンボールで宇宙一強いのはフリーザですか?」
→ もしかすると、「いいえ」のlogprob
が少し低くなる可能性がある。 -
「フリーザは宇宙で最強の戦士ですか?」
→ これだと、「はい」と答える確率が上がるかもしれない。
(3) 生成パターンを変える
Azure OpenAI の API では、 temperature=0
(決定論的生成)を使うと、 モデルの確信度をより直接的に分析 できます。
response = openai.ChatCompletion.create(
engine=DEPLOYMENT_NAME,
messages=[{"role": "user", "content": "宇宙一強いのはフリーザですか?"}],
max_tokens=2,
logprobs=True,
temperature=0 # 決定論的な出力
)
temperature=0
にすることで、 確率のブレを抑えて、よりモデルの純粋な判断を得られる ので、実験には有効です。
4. まとめ
✅ logprob ≈ 0
の場合、モデルはほぼ100%確信を持ってそのトークンを選択している
✅ フリーザの質問では「いいえ」の確率が極端に高い → モデルの学習した知識が影響
✅ top_logprobs
を見ると、他の選択肢の可能性もわかる
✅ 質問の仕方を変えると、モデルの確信度が変化するかも
この結果をどう活用したいですか?
より細かく分析するために、他の質問を試したり、違う設定で実験するのも面白そうですね! 🚀
user:
"もしかしてオラオラですか?"
と質問したら
Token: い, Log Probability: -0.1203
Token: い, Log Probability: -0.0845
Token: え, Log Probability: -0.0000
Token: 、, Log Probability: -0.0014
Token: 私, Log Probability: -0.0463
Token: は, Log Probability: -0.0001
Token: AI, Log Probability: -0.0157
Token: ア, Log Probability: -1.0376
Token: シ, Log Probability: -0.0000
Token: ス, Log Probability: -0.0001
と返ってきました。
assistant:
この結果は、モデルが 「いいえ」 をかなり高い確率で選んでいるが、前回よりも 確信度がやや低い ことを示しています。
1. logprob
の解釈
Token: い, Log Probability: -0.1203
Token: い, Log Probability: -0.0845
Token: え, Log Probability: -0.0000
この部分を見ると:
-
「いいえ」全体の確率は高い(
logprob
が小さいほど高確率) - ただし、 前回(フリーザの質問)よりも確信度が低い
- 前回:
logprob ≈ 0.0000
(ほぼ100%) - 今回:
logprob ≈ -0.1203
や-0.0845
(ほぼ確実だが、100%ではない)
- 前回:
つまり、モデルは「いいえ」と言うのが妥当と判断しているが、 そこまで強く確信しているわけではない ということになります。
2. その後のトークン
Token: 、, Log Probability: -0.0014
Token: 私, Log Probability: -0.0463
Token: は, Log Probability: -0.0001
Token: AI, Log Probability: -0.0157
ここから推測できるのは:
- 「いいえ」の後に、モデルは説明を続けようとしている
- 「私は AI」というフレーズが出ている → AI であることを説明しようとしている
つまり、モデルは 「オラオラですか?」という質問が自分(AI)には適切でない と認識している可能性があります。
3. 「フリーザの質問」との比較
質問 |
logprob の傾向 |
確信度の違い |
---|---|---|
「宇宙一強いのはフリーザですか?」 |
いいえ の logprob ≈ 0.0000
|
ほぼ100%確信 |
「もしかしてオラオラですか?」 |
いいえ の logprob ≈ -0.1203
|
確信はあるが、やや迷いあり |
この違いから、モデルは:
- 「フリーザが宇宙一強い」より、「オラオラかどうか」の方が曖昧だと感じている
- 「もしかしてオラオラ?」は解釈が複数あるため、確信がやや下がった
4. さらに分析する方法
この確信度の違いをもっと調べるには、次のような方法を試せます。
(1) top_logprobs
を見て、他の候補を確認
for token_info in response["choices"][0]["logprobs"]["content"]:
print(f"Token: {token_info['token']}, Log Probability: {token_info['logprob']:.4f}")
if "top_logprobs" in token_info:
for alt in token_info["top_logprobs"]:
print(f" Alternative: {alt['token']}, Log Probability: {alt['logprob']:.4f}")
もし「はい」や別の答えの logprob
が高めなら、 モデルが「いいえ」以外も少し考えた ことがわかります。
(2) 質問を変えてみる
次のように質問を変えると、 モデルの確信度がどう変わるか を確認できます。
例1:もう少し直接的な質問
「あなたはオラオラですか?」
→ logprob
が変わるかどうかチェック
例2:「オラオラ」と「はい」の関係を試す
「オラオラですか?(はい・いいえで答えてください)」
→ logprob
がどうなるか比較
5. まとめ
✅ 「いいえ」の logprob
が -0.12 で、ほぼ確信しているが、100%ではない
✅ 前回(フリーザの質問)よりも、確信度がやや低い
✅ 「私は AI」と説明を続けようとしているため、「オラオラ」という質問が微妙に曖昧だった可能性がある
✅ top_logprobs
を見れば、他の選択肢の確率も確認できる
✅ 質問を変えることで、モデルの確信度がどう変化するかを分析できる
このデータをどう活用したいですか?
より深い分析をするなら、「どんな質問で logprob が変わるのか」試してみるのも面白そうですね! 🚀
user:
ありがとうございます。勉強になりました。
assistant:
どういたしまして!楽しんでいただけたなら嬉しいです😊
ロジット値や確信度の分析は奥が深いので、また気になることがあれば気軽に聞いてくださいね!
もし実験を続けて新しい発見があれば、ぜひシェアしてください✨🚀