More than 1 year has passed since last update.

Ranger のカスタムマスキングポリシーの定義方法

Last updated at 2023-11-16Posted at 2023-11-16

この記事について

Hadoopクラスタのリソースに対するアクセス制御を行う Ranger では、テーブルの列に対するマスキングポリシーを指定することができます。

マスキングポリシーには、プリセットで「Redact」というパターンがあり、これは英語をXに、数字をNに変換するものです。

このパターンが、プリセットの中では唯一、以下の三拍子が揃っていて大変便利です。

文字列型に適用できる
変換前のデータの雰囲気がなんとなくわかる（文字列の長さがそのまま保たれるから）
空欄の項目と値が入っている項目の区別ができる（HashはNullの項目にも何らかの値を入れてしまう）

しかし、Redact では全角文字が変換の対象にならないため、日本語の項目が全見えになってしまうという問題があります。

日本語を含む項目をいい感じにマスクするには、カスタムポリシーを設定する必要があります。しかし、書き方をわかりやすくガイドしたドキュメントがなかなか見つからずにつまづいたので、ここにいくつかサンプルを載せておきます。

カスタムマスキングポリシーの定義方法

Ranger のマスキングポリシーの「Custom」を選択すると、入力欄が出てきます。
この中に、マスキングルールを定義します。

カスタムのマスキングルールの例

日本語項目に対して、よく使いそうなものを置いておきます。

すべての文字を「●」にする

regexp_replace({col},".","●")

例：
もとの文字列：東京都中央区銀座1-1-1
変換後の文字列：●●●●●●●●●●●●●

最初の三文字をそのまま残し、残りを「●」にする

CONCAT(regexp_extract({col}, '^(.{3})', 1), regexp_replace(regexp_extract({col}, '^.{3}(.+)$', 1), '.', '●'))

例：
もとの文字列：東京都中央区銀座1-1-1
変換後の文字列：東京都●●●●●●●●●●

👆今はここまで👆

すみません。もっと他に使えそうなものを調べたら、都度追記します。

カスタムのマスキングルールを自前でアレンジするときのコツ

カスタムルールをアレンジするには

上記の例を参考に、正規表現や、Impala が使っている String Function を駆使すれば、思いどおり（というか、書いたとおり）のマスキングルールを適用できます。

カスタムルールをアレンジするコツ

カスタムルールをアレンジする際は、直接 Ranger にルールを記述する前に、まず以下の手順を踏むことをおすすめします。

なぜこの方法がおすすめなのかは後述します。

上記の手順を踏むのがおすすめな理由

上記の手順を踏むのがおすすめな理由は、一言で言うと、Rangerに直接ルールを定義すると、編集・テストともにしづらいからです。

カスタムルールをアレンジするときに、おそらく必ず遭遇する問題

Ranger の画面にいきなりカスタムルールを定義しようとすると、以下の問題に遭遇すると思います。

入力欄が小さい
- 単純に、非常に入力しづらい
- 長いルールだと、自分が書いたルールの全体を画面上で見渡せない
Rangerでは文法チェックをしてくれない
- 文法のエラーがあっても、RangerのルールはSaveできてしまう
- Ranger の画面上では、文法のハイライトなどもしてくれない
- 定義したルールにエラーがあると、クエリエンジンで該当のテーブルを select した際に、SQLのエラーとして表示される
- こんな感じです⏬
Ranger のルールが反映されるまでに少し時間差がある＆どのタイミングでルールが反映されたかがUI上ではわからない

上記の理由から、Rangerに直接ルールを定義しようとすると、非常にテストがしづらいです。

そのため、まずはクエリでテストをして、正しい構文を作った上でRangerに転記することをおすすめします。

カスタムマスキングポリシーが機能する仕組み

最後に、カスタムマスキングポリシーが機能する仕組みを参考までに。

※ソースをちゃんと読んだわけではなく、挙動から推測した仕組みです。

マスキングポリシーを定義すると、該当の項目を含む SELECT 文をかけた際に、該当の項目に対して裏で以下の処理がかかることにより、マスキングがかかる。

SELECT CAST(変換ルール as STRING)

変換ルールは、以下の文法に則って定義することができる。

Ranger のマスキングポリシーは、列単位で指定する
- つまりRanger は、定義されたルールがどの列に適用するためのものかをわかっている
Ranger のカスタムルールを記載するときは、{col} と記載すると、Ranger（またはRangerが連携しているクエリエンジン）が {col} の部分をルール適用対象の列の名前に変換してくれる

さいごに

この記事の内容は以上です。

お役に立った場合は、「いいね」やストックをしていただけると励みになります。
誤りを見つけた場合は、コメントでお知らせください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Ranger のカスタムマスキングポリシーの定義方法

この記事について

カスタムマスキングポリシーの定義方法

カスタムのマスキングルールの例

すべての文字を「●」にする

最初の三文字をそのまま残し、残りを「●」にする

👆今はここまで👆

カスタムのマスキングルールを自前でアレンジするときのコツ

カスタムルールをアレンジするには

カスタムルールをアレンジするコツ

おすすめの手順 Step1

おすすめの手順 Step2

上記の手順を踏むのがおすすめな理由

カスタムルールをアレンジするときに、おそらく必ず遭遇する問題

カスタムマスキングポリシーが機能する仕組み

さいごに

Ranger の カスタムマスキングポリシーの定義方法

この記事について

カスタムマスキングポリシーの定義方法

カスタムのマスキングルールの例

すべての文字を「●」にする

最初の三文字をそのまま残し、残りを「●」にする

👆今はここまで👆

カスタムのマスキングルールを自前でアレンジするときのコツ

カスタムルールをアレンジするには

カスタムルールをアレンジするコツ

おすすめの手順 Step1

おすすめの手順 Step2

上記の手順を踏むのがおすすめな理由

カスタムルールをアレンジするときに、おそらく必ず遭遇する問題

カスタムマスキングポリシーが機能する仕組み

さいごに

Ranger のカスタムマスキングポリシーの定義方法