はじめに
本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

データの匿名化とは?
個人を特定できる情報(PII)とは、それ自体または他のデータと組み合わせて、個人の身元を追跡するために使用できる情報のことです。
データの匿名化とは、
『個人を特定できる情報を排除することで、人々の個人情報や機密情報を保護するプロセスのこと』
通常、データの匿名化には、個人情報の空白化、ハッシュ化、マスキングが用いられ、データ列を特定するために固定長のコードを使用したり、改変された値でデータを隠すことが多々あります。
データの匿名化における、データ アナリストの役割
組織には、データおよびそのデータが含む可能性のある個人情報を保護する責任があります。データアナリストとして、どのデータを匿名化すべきか理解しているよう期待はされるかもしれませんが、たいていは、データ匿名化そのものに責任を持つことはありません。ただし例外として、テストや開発のためにデータのコピーを使用する場合は、そのデータを扱う前に匿名化することを求められる可能性があります。
どのようなデータを匿名化すべきか?
- ヘルスケア
- 金融
のデータは、最も機密性の高いデータのうちの 2 つです。
これらのデータの取り扱いに対するリスクは非常に高いため、データの匿名化技術に大きく頼っており、通常、個人を特定できるデータをすべて消去する「非識別化」を行いデータを保護しています。

データの匿名化は、ほぼすべての業界で行われており、データアナリストがその基本を理解しておくことは非常に重要なことです。ここでは、匿名化されることが多いデータの例をご紹介します。
- 電話番号
- 名前
- ナンバープレートと免許証番号
- 社会保障番号
- IP アドレス
- 医療機関の受診記録
- 電子メールアドレス
- 写真
- 口座番号
データの匿名化は、データのプライバシーと安全性を維持するための方法の一つです。