この記事は新社会人のSalesforce学習記録とその他 Advent Calendar 2025の16日目です。
AgentforceのEinstein Trust Layerなど情報の安全対策などについての学習記録です。
なお、プロンプトに何かする部分はすでに学習済みなので、この記事では応答に関する部分に焦点を当てています。
Einstein Trust Layerとは
Agentforceを安全・安心して使えるようにするための仕組みのようです。
入力から応答までの一瞬の間様々な過程を経て安全なデータへと仕上げています。
入力、プロンプトの段階では4つ、応答レスポンスの時点では3段階の過程があるようです。
例えば動的グラウンディング、データマスキング、ゼロデータリテンションなどが存在しています。
今回は応答の部分についてみていきます。
応答の部分には
・データ保持ゼロポリシー
・有害用語検出
・データリマスキング
・監査履歴
があります。
データ保持ゼロポリシー
プロンプトや生成された応答が、外部に一切保存されないようにするもののことです。外部には出ませんが内部では保存されているということです。
Agentforceに限らず、ChatGPTとかGeminiとかで過去の会話履歴を遡れたりすることがあります。Agentforceでも会話履歴が保存されています。
Agentforceでは過去の会話履歴は拡張イベントログという場所に保管されているようです。
Agentforceでユーザーデータは削除されるのに会話データは保存されているのは、カスタム↓Agentforceをテストしたときのログを確認できるようにするためのようです。
ちなみに、イベントログを保持するためにはData Cloud クレジットを消費するそうです。
⇩以下のように、チェックボックス一つでイベントログを取ることができるようになります。

有害用語検出
その名のとおり、有害な用語を検出するようです。
有害性については6つのカテゴリ
・暴力
・性的
・冒涜
・憎悪
・物理
・不快な言葉
が存在しています。
有害性の判定方法として、0から1のスコアがつけられて判定される有害性スコアリングというものを使用しています。
有害な言葉を検出した場合、文章全体が再構築されたり出力されなかったりするみたいです。
データリマスキング
入力のほうではデータマスキングとして機密情報を意味のない文字列などに変換してaiの学習に使われないようにする技術がありました。
出力の段階では、マスクしたデータをもとのデータに戻していきます。名前とか、電話番号とかはこの段階で戻ってきます。
監査履歴
有害性スコアリングのスコアやデータマスキングの中身、データの中身など使用したデータの履歴が格納されています。
その他AIの安全性
Agentforce以外のAI(GeminiとかChatGPTとか)の安全性に関する機能にはどのようなものがあるか確認していきます。
多段階モデレーション
Agentforceの有害用語検出と同じようなもので、危険性・有害性のある言葉をブロックしています。
Agentforceでは見たところ応答が返される際の1回しかこの仕組みがとられていないっぽいですが、ChatGPTなどでは入力時・出力時の2回は最低でも行われています。
複数回行われているため多段階モデレーションと呼ばれているようです。
検索
ネットの情報を検索して応答に入れることができる点は、Agentforceにない強みです。ハルシネーションの対策にもなっているみたいです。
ではAgentforceでハルシネーションが起こらないかといわれると、そうでもなさそうです。そもそもAgentforceでは自社のデータしか扱わず、信頼されたデータを使用しているため間違いがほぼ起こらないようになっています。
まとめ
Einstein Trust LayerはAgentforceで必要な処理のみが入っていて、安全を守ってくれている。