こんにちは!インサイトテクノロジーの佐々木です。
本投稿では、マスキング製品 Insight Masking を使って、フリーテキスト内に含まれる個人情報を効率的にマスキングする方法をご紹介します。
はじめに
フリーテキストとは、特定の形式や制約にとらわれず人が自由に記述できるテキストを指します。
例)議事録、日報、アンケート自由記述欄等
これらフリーテキスト内に含まれる個人情報を秘匿化することを本稿では
フリーテキストマスキングと呼びます。
CSVファイルのフリーテキストマスキング
Insight MaskingはAI技術と学習モデルを駆使した固有表現抽出 (NER) 機能を備えており、フリーテキストに含まれる個人情報を自動で検知し、マスキングする事が可能です。
フリーテキストが含まれるCSVファイルを登録
では早速手順を紹介します。
プロジェクトを作成し、CSVファイルをアップロード
- 画面上部の「プロジェクト」、「+」マークを押下します
- 「新規プロジェクト名」、「コメント」に適当な文字を入力し、右下の「作成」を押下します
- プロジェクト画面下部に「文字コード」設定がありますので、アップロードするCSVファイルの形式を選択ください
作成したプロジェクトが開いたら、「CSV」タブを選択し、右側の「追加」を押下
- パブリック : ユーザー間でファイルを共有できます
- プライベート : ユーザー間でファイルを共有できません。ご自身のみがアクセス可能です
- 画面左側のメニューより「マスキング設定」を押下します
- 状態の列が初期設定では「無効」となっていますので、「有効」に変更します。「無効」の文字をクリックすると「無効」→「有効」と変化します
- 「カラム設定」を押下します
個人情報検知の条件設定
以下の図では「No」、「作家名」、「コンテンツ」の3カラムで構成されるCSVファイルを示しています。
- 今回の例では「コンテンツ」カラムのフリーテキストに含まれる個人情報をマスキングしたいので、本カラムを「有効」にします
- また、本カラムはフリーテキストであるので、メタ情報列が「VACHAR」であることを確認します
- 「編集」を押下します
メタ情報
フリーテキストマスキングの際、「VACHAR」以外の型が表示されている場合は、「VACHAR」を選択ください。文字列をクリックするとドロップダウンボタンが表示されます。
- マスキング:「フリーテキスト」を選択します
- 実行モード:「詳細モード」を選択します
- AIラベル横の「ラベルエディタ」を押下します
マスキング対象とする個人情報のカテゴリー選択
出典:推理作家一覧. (2024, August 19). ウィキペディア (Wikipedia): フリー百科事典. Retrieved from https://ja.wikipedia.org/wiki/%E6%8E%A8%E7%90%86%E4%BD%9C%E5%AE%B6%E4%B8%80%E8%A6%A7
- 画面右側のAIラベルのトグルスイッチのオン/オフでマスキング対象とする個人情報のカテゴリーを選択できます
- AIラベルの序列は上に行くほど優先度が高い項目を示します
- 優先度を変更する場合は、AIラベル名をドラッグすることで変更可能です
自動検知したい単語を個別に手動追加
- 画面右側の「追加」を押下します
- 「ラベル名」に適当な文字列を、「検出単語」に検出したい単語を入力します
自動検知したい単語を予め辞書登録で追加
マスキング条件を設定
フリーテキストマスキングでは、マスキング設定は初期設定で【〇〇マスク】と設定されています。
例)田中良子 → 【個人名 マスク】
株式会社インサイトテクノロジー → 【法人名 マスク】
アスタリスクでマスキングするテンプレートを作成
- 画面上部の「テンプレート」を押下
- 画面左側の「マスキング」を押下。この時ディレクトリはプライベート、パブリック任意で選択ください
- 「追加」を押下
- 「テンプレートの追加」ウィンドウが開くので、「名前」に適当な文字列を入力
- 「パラメータ」で「固定文字列」を選択
- 「固定文字列」に「*****」を入力
作成したマスキングテンプレートをマスキング設定に適用
- 上記図の赤枠内は初期状態を表しており、この時点では【個人名 マスク】となります
- 作成したマスキングテンプレートを適用するには、赤枠内を押下すると作成したマスキングテンプレートを選択できます
マスキング条件の設定保存からマスキング実行まで
- 画面左側のメニューより「設定保存・実行」を押下します
- 画面中央上部の「設定を保存」を押下します
- 「マスキング実行」を押下します
設定保存
条件設定を変更された後等に、画面左側のメニュー上に保存を促すバッチ「●」が表示されたままの場合は、設定条件が保存されていない状態です。必ず「設定保存・実行」および「設定を保存」を押下してください。
マスキング結果のダウンロード
- 画面左側のメニュー「マスキング結果」を押下します
- 「ダウンロード」を押下します
マスキング結果ファイル
ダウンロードしたCSVファイルは下図の様にマスキングされます。
【マスキング後】
【原文】
出典:綾辻行人. (2024, August 19). ウィキペディア (Wikipedia): フリー百科事典. Retrieved from https://ja.wikipedia.org/wiki/%E7%B6%BE%E8%BE%BB%E8%A1%8C%E4%BA%BA
おわりに
今回はCSVファイルのフリーテキストマスキング方法について紹介いたしました。
上記マスキング設定は一例であり、その他豊富なマスキングスタイルを用意しております。
個人情報の秘匿化にお困りの方、Insight Maskingをお試しください。