背景・目的
私は、現在データエンジニアリングを生業としています。普段は、データ基盤の構築やパフォーマンスチューニングなどに従事しています。ビックデータの収集や、蓄積、分析などの環境構築の経験はそこそこありますが、データマネジメントについては、それほど経験がありません。
そのため、データマネジメントの知識やスキルを獲得するために、DAMAのCDMP(Certified Data Management Professional)試験の学習を通して学ぼうと思います。
CDMPは、DMBOK2(Data Management Body of Knowledge version2)から、14のトピック(11の知識領域、データ管理プロセス、倫理、ビッグデータ)で出題されるようです。
参考
Data Management Process – 2%
Big Data – 2%
Data Architecture – 6%
Document and Content Management – 6%
Data Ethics – 2%
Data Governance – 11%
Data Integration and Interoperability – 6%
Master and Reference Data Management – 10%
Data Modelling and Design – 11%
Data Quality – 11%
Data Security – 6%
Data Storage and Operations – 6%
Data Warehousing and Business Intelligence – 10%
Metadata Management – 11%
DMBOK本では、章立てとして17章に分けられています。
本ページでは「第2章.データ取扱倫理」について整理します。
なお、過去のデータマネジメントの整理した結果は下記のとおりです。
まとめ
- データを取り扱うに当たり、法律要件に加えて倫理的な義務にも注意を払う必要がある。
- データの利用に関する環境は変化し続けている。
- 特に利用者の目線は厳しくなっている。それに合わせて法規制などが段々と整備されてきている。
- 組織としては、法規制を受取するのは当然だが、倫理的な視点で組織内でリスクの洗い出しルール整備、統制を取る仕組みが必要。
概要
イントロ
倫理観をもってデータ処理をする。とは倫理観に沿って以下の処理をするという意味を持つ。
- 生成
- 保管
- 管理
- 使用
- 破棄
データから価値を引き出そうとする組織が長期的に成功するには、倫理的な方法でデータを取り扱うことが不可欠。
倫理的にデータを取り扱わなければ、個人データが晒されるリスクを人々にもたらす。結果的に評価を下げて顧客を失い、場合によっては違法となる。
最終的には、データマネジメント・プロフェッショナルと彼らが所属する組織にとって、データ倫理は社会的責任の問題になる。
データ取扱倫理は複雑。しかし重要な概念が中心にあるのでおさえる。
重要な概念 | 行動 | 理由 |
---|---|---|
人々への影響 | 品質と信頼性の管理 | データは個人の特性を表す。人々の生活に影響を与える意思決定に与える。 |
誤用の危険 | 誤用を防ぐ倫理義務 | 人々が組織に悪影響を与える危険がある。 |
データの経済的価値 | 誰がどの様にその価値へアクセスできるかを決める。 | データには経済的価値がある。 |
データは法的理由と倫理的理由により保護する
- 確実に保護され、誤用されないようにする法的理由だけではなく倫理的理由もある。
- 個人を特定できない場合でも、人々の生活に影響を与える可能性がある。
多くの企業は、倫理義務の認識が対応できてない。
技術的な視点しか捉えられず、データの内容はわからないなど。
法律条文に準拠していれば問題ないと考えている。
データは保護だけではなく、品質も管理する
- データを使って意思決定する人、またはその意思決定の影響を受ける人はデータは完全で正確と考えている。
- 業務とITの両方の観点から、データマネジメント・プロフェッショナルはデータを管理するリスク倫理的責任を負っている。
- データが不正確に伝えられること、誤用されること、誤解されるリスクを減らすために、データの生成から廃棄までデータライフサイクル全体に取り組む。
データ取り巻く環境
- 環境は、急速に進化しているため、数年前には想像もできない方法でデータを使用している。
- 法律では、倫理減速を取り組んでいるが、環境の進化に伴うリスクに対応できなくなっている。
- (たしかに技術 → 問題 → 法規制の流れがあり、法整備までに時間がかかる。)
-
組織は、情報の倫理的な取扱を重視する文化を育み、維持することにより預けられたデータを守る倫理的義務を認識し、その義務を果たさなければならない。
- 確かに、法律的にはセーフだが、炎上するケースなどはこれに該当する。
コンテキスト図:データ取扱規定
以下に、コンテキスト図:データ取扱倫理を整理します。
データ取扱規程の定義
データ取扱規定は、倫理原則に従いながら、以下のライフサイクルを扱う。また、それを実行するコミュニティの責任を含む。
- データ生成
- 保管
- 管理
- 解釈
- 分析
- 活用
- 廃棄
データの生成〜廃棄までの取り扱いを倫理に従い組織的に扱う。
データ取扱規倫理のゴール
以下をゴールとしています。
- 組織としてデータの取り扱いを定義する
- 不適切なデータの取り扱いがもたらす組織のリスクについてスタッフを教育する
- 文化や行動をデータの取り扱いに適した方向に変革し、それを定着させる
- 規制環境を注視しデータ倫理に向けた組織の取り組みを評価し、監視し調整する。
取り扱いについて定義する。つまり規定を作るということ。
作られた規定に基づき、啓蒙し定着させる。そして、作り放しにせず法規制や業界の動向に合わせて修正していく。
アクティビティ
以下の成果物をアウトプットとして、活動する。参考にするインプットも下記に記載する。
- データ取扱業務のレビュー
- 原則、業務手順、リスク要因の確認
- 倫理的なデータ取扱戦略の策定
- 業務手順ギャップの特定
- スタッフとコミュニケーションと教育
- 遵守状況の監視と維持
アウトプット
下記のアウトプットの利用者は、従業員、幹部役員、規制機関(監査などで?)である。
- 現行業務とギャップ
- 倫理的データ取扱戦略
- コミュニケーション計画
- 倫理訓練プログラム
- データに関する企業倫理宣言
- データの倫理的問題に対する認識
- 整合性があるインセンティブ、KPI、ターゲット
- ポリシーの更新
- 倫理的データ取扱報告
現時点で、上記がどのようなものか、どれだけ有効性があるか不明。
インプット
アクティビティのインプットは下記のとおり。供給者は幹部役員、データスチュワード(上級含む)、IT幹部役員、データ提供者、規制機関
- 既存の組織倫理と推奨される組織倫理
- ビジネス戦略とゴール
- 組織構造
- 企業文化
- 規程
- 既存の企業方針
アクティビティを推進する上でのツール等
- 技法
- コミュニケーション計画のチェックリスト
- 年次倫理誓約書
- ツール
- Wiki
- ナレッジベース
- イントラネット
- マイクロブログ?
- 内部コミュニケーションツール
- 評価尺度
- 訓練を受けた従業員数
- 法令遵守/不遵守件数
- 企業幹部役員の関与
ビジネス上の意義
倫理的にデータを取り扱うことにより、組織と組織のデータとその処理結果に対する信用を高める事ができる。その結果、組織はステークホルダーと良い関係を築ける。
倫理的な文化を創造するには、統制の制度を含む適切なガバナンスの導入が必要。
そして、データ処理の成果は意図して倫理的になる。もしくは結果として倫理的となり人間の尊厳や信頼を傷つけないようにできる。
データを扱う環境は大きく変化し、共有しやすくなったことで組織全般で取り扱うための責任が求められる。
組織全体で、データの誤用に伴うリスクを認識し、個人を保護し、データ所有権に関する義務を尊重する原則に基づいてデータを取り扱う事が重要。
本質的な概念
データの倫理原則
一般的に認められている生命倫理の理念は、人間の尊厳を保つことに重点を置いています。データの倫理原則の出発点として適しています。
以下に、整理します。
生命倫理の理念 | 説明 | データの倫理原則では? |
---|---|---|
人格の尊重 | 人々を個人として扱い、尊厳と自律性を尊重する。 個人の自律性が損なわれている場合、 その尊厳と権利を守るために特別な注意を払うことも求めている。 |
個人データは、石油や石炭のような資産とは異なる。 個人データの非倫理的な使用は、人々の交流、雇用機会、コミュニティにおける立場に直接影響を与える期限がある。 以下の観点を考慮してデータが取り扱われているか確認が必要。 ・自律性や選択の自由を制限するやり方で情報システムを設計していないか? ・データの取り扱いが精神的、身体的障碍を持つ人々にどの様に影響するか考慮されているか? ・そのような人々に向けて、データにアクセスして利用する方法が説明されたか? ・データ処理は有効なインフォームドコンセント(※1)に基づいて行われているか? |
善行 | 2つある。害を与えてはならないこと。 次に、できる限り利益を大きくし、できる限り害を小さくすること。 |
「害を与えてはならない」という倫理原則は、医療倫理に置いて長い歴史を持っている。 これはデータとインフォーメーション管理の文脈でも同様に適用できる。 倫理的に、データとインフォメーションを扱う人は、データ処理の結果を検討し、設計された処理によって得られる利益を最大化し、損害リスクを最小化するように努めるべきである。 以下の観点を考慮してデータが取り扱われているか確認が必要。 ・Win-Winの状況ではなくゼロサムの結果を前提とした方法で設計されていないか? ・データ処理が必要以上に複雑になっていないか? ・ビジネスニーズの要件を満たす、よりリスクの低い方法はないだろうか? ・データの取扱に透明性を欠いており、人々に起こりうる損害が隠されていないか? |
正義 | 人々に対する公正で公平な取り扱いを考慮している。 | 以下の観点を考慮してデータが取り扱われているか確認が必要。 ・似たような状況下にある人々やグループが不平等に扱われていないか? ・プロセスやアルゴリズムの結果が、あるグループに偏った利害を及ぼさないか? ・気づかないうちに文化的偏見を強めるものが含まれたデータを使用して機械学習をさせていないか? |
※1 インフォームドコンセントとは、以下のとおりです。
「医師と患者との十分な情報を得た(伝えられた)上での合意」を意味する概念[1]。 医師が説明をし、同意を得ること。 特に、医療行為(投薬・手術・検査など)や治験などの対象者(患者や被験者)が、治療や臨床試験・治験の内容についてよく説明を受け十分理解した上で(英: informed)、対象者が自らの自由意志に基づいて医療従事者と方針において合意する(英: consent)ことである(単なる「同意」だけでなく、説明を受けた上で治療を拒否することもインフォームド・コンセントに含まれる)
2015年に欧州データ保護会議(EDPS:European Data Protection Supervisor)のデータ処理とビックデータ開發について意見を発表した。
- 未来志向のデータ処理規制と、プライバシーとデータ保護に対する権利の尊重
- 個人情報の処理を決定する、責任ある管理者
- プライバシーに配慮した、データ処理製品とサービスについてのエンジニアリングと設計
- 権限が保証された個人
データガバナンスは、「誰が」「どのデータで」「何をすることができて」、「どの状況での処理」が適切で必要なのかを決定するとき、これらの原則が考慮されたかどうかを保証する重要な手段である。
データプライバシー法の背景にある原則
1980年にODECは、公正な情報処理のためのガイドラインと原則を制定した。それがECのデータ保護法の基礎となる。
EUのGDPRに従い、各国で個人情報プライバシーの法的保護を強化する傾向が広がっている。
世界中の法律は、国境を超えるデータの移動に制限を設けている。多国籍業であってもグローバルな情報共有には法的な制限が設けられている。
そのため、組織がポリシーとガイドラインを設けて、それによりスタッフが組織の許容するリスク内でデータを処理するとともに、法的要件を遵守する事が重要。
倫理的文脈におけるオンラインデータ
アメリカでは、オンライン上の倫理的行動を知らしめる目的で守るべき原則を成分化するため、新たな取り組みやプログラムが出てきている。下記にトピックを記載します。
- データの所有者
- ソーシャルメディアやデータブローカに対して、個人のデータを自らコントロールする権利。
- 忘れられる権利
- 個人情報をWebから削除できること。
- 個人の識別
- 唯一の個人識別情報を自分の自らが選ぶ権利を持つこと。
- オンラインでの発言の自由
- いじめ、恐怖煽動、侮辱に対して自分の意見を表現すること。
非倫理的なデータ取扱業務のリスク
データを倫理的に取り扱うとは、どういうことかを知る方法は、ほとんどの人が倫理に反すると考える行動を調べること。
データが信頼できると保証するためには、データの品質の評価軸に沿って正確性や適時性などを測る必要がある。
以下で、原則に反する非倫理的なデータについて解説します。
非倫理的なデータ処理 | 説明 |
---|---|
タイミング | レポートやアクティビティに含まれるデータポイントをあるタイミングで消去したり、逆に挿入したりすることでウソを付くことができる。 |
虚偽的視覚化 | チャートやグラフは、誤解を招くような形でデータを表現できる。縮尺を変更したりなど。 |
不確実な定義または無効な比較 | 意味を伝える文脈を同時に提供すること。誤解を招く。 |
バイアス | 個人に使われると不合理な判断や、偏見に結びつく。 ・事前定義された結果を導くためのデータ収集 ・収集データにバイアスを掛けた使用 ・直感による調査 ・バイアスされたサンプリング手法 ・文脈と文化 |
データの変換と統合 | データ統合では、データがシステムからシステムへ移るにつれて値がへんこうされるため、倫理的な課題が生じる。 ・データ発生元とリネージに関する限られた知識 ・品質の低いデータ ・信頼できないメタデータ ・データ変更履歴が記録されていない |
データの難読化/リダクション(伏字化) | データの難読化とリダクションは、センシティブ情報を取り除く方法。 下流の分析や他のデータセットとの組み合わせで、データが露呈していしまう期限性がある。難読化だけではデータの保護するのに十分ではない。 このリスクは以下の場合に、発生する。 ・データ集約 ・データマーキング ・データスキング |
データレイクにデータが格納されたときに、最初にすべきことは、そのデータがセンシティブデータか特定し、規程の保護手段を講じること。また、これだけでは不十分なので組織が倫理的なデータ取り扱いに対して、ガバナンスと責任を持たなければならない。
倫理的なデータ文化の確立
倫理的なデータ取扱文化を確立するために、以下をポリシーと倫理規範として記述し、その行動を取らせるための訓練を実施し、監視する必要がある。
- 既存の業務を理解
- 取るべき行動を定義
行動規範に加えて、明確なコミュニケーションとガバナンス統制を確実に実施し、従業員の疑問と適切な上申経路を設けること。
これにより、従業員が倫理的ではない行いや倫理上のリスクに気づいたとき、報復の恐れなしに問題を指摘し、その行いを止めさせることができる。
- 確かに、監視や教育・啓蒙だけでは不十分で、機械的な監視に加えて、人による監視が抑止につながる。
データ取扱業務の現状レビュー
- 改善の第一歩は理解から始まる。
- 目的は、それがどの程度倫理的で、コンプライアンス準拠の動機づけに直接的、明示的に関連しているかを理解することにある。
- ステークホルダーとの信頼関係を維持するために、既存の業務手順や倫理的な意義を従業員がどの程度理解しているのか確認する必要がある。
原則、業務、リスク要因の確認
-
データ取扱に関する倫理的業務手順を正式にする目的は、以下のとおりです。
- 顧客、従業員、ベンダー、その他のステークホルダーや組織全体に危害を及ぼすリスクを軽減する。
-
業務改善する組織は、以下の一般原則を認識する。
- 個人のプライバシー保護
- 業界固有の懸念である財務
- 健康関連の情報を保護
-
組織のデータ倫理へのアプローチは、以下の具体的な知識を広く保つ必要がある。
- 法令や規制への準拠要件に沿ったもの
- グローバル企業では、各国の法律の基礎となる倫理原則、各国間の合意内容
- 組織に関するリスク
- 技術を適用する範囲
- 従業員の離職率
- 顧客データの収集手段
- 法令や規制への準拠要件に沿ったもの
-
原則は、リスク(原則が遵守されないことによる起こり得る悪いこと)、手順(リスクを回避するための正しいやり方)を足並み揃えること。
-
以下の例に示すように手順は統制されている必要がある。
- 基本理念
- 人々は自分の健康に関する情報に関してプライバシーが尊重される権利を持つ。
患者の個人健康データは患者に対する医療業務の一環としてアクセスが許可されるべき人以外、アクセスすべきではない。
- 人々は自分の健康に関する情報に関してプライバシーが尊重される権利を持つ。
- リスク
- 患者の個人健康データに幅広くアクセスできると、個人情報が公に知られかねず、プライバシーに対する権利が危険にさらされる。
- 業務手順
- 看護師と意思だけが医療目的でのみ、患者の個人健康データへのアクセスを許可される
- 統制
- アクセスが必要な人々だけがアクセスできるようにするため、患者の個人健康データを含むシステム利用者全ユーザを毎年レビューする。
- 基本理念
上記の流れに加えて、このようなつながりがあると感じた。
- 国法規制、業界のルール
- 理念
- どうあるべきか
- 資産
- 自組織がどのようなデータを持っているか。
- リスク
- どのようなリスクがあるか
- 業務手順
- ルールによりリスクを軽減する。
- 統制
- 業務手順が守られているか監査する。
倫理的なデータ取扱戦略とロードマップの策定
現状のレビューと一連の原則が策定されたあと、組織はデータ取扱手順を改善する戦略を正式なものにできる。
- 戦略の構成要素は、以下の通り。この戦略は倫理原則とデータに関連して取るべき行動の両方を表し、バリューステートメントと倫理行動規程として示される。
構成要素 | 概要 | 説明 |
---|---|---|
バリューステートメント | 組織が何に価値を置くかを記述する。 | 例)真実、公平、正義など。これらのステートメントは倫理的なデータ取扱と意思決定の枠組みを提供する。 |
倫理的データ取扱原則 | 組織がデータによって提示される課題にどのようにアプローチするかを記述する。 | 例)個人が持つプライバシーの権利をどのように尊重するか。 原則と取るべき行動は倫理規定にまとめられ、倫理ポリシーにより支えられる。 規程とポリシーを企業に浸透させるために訓練計画とコミュニケーション計画を含めるべき。 |
コンプライアンスフレームワーク | 企業が組織として義務を果たすように動機づけを与える要因を含む。 | 倫理的行動により企業はコンプライアンス要件を満たせる。コンプライアンス要件は、チリや業界などの関心事により影響を受ける。 |
リスクアセスメント | 企業内で特定の問題が発生する危険性と影響を確認する。 | これらは従業員の倫理原則への遵守を含む。リスクの低減に関連する行動の優先順位をつける際に考慮される。 |
訓練とコミュニケーション | 訓練には倫理規定の再確認を含めるべき。 | 従業員は規程と倫理的でないデータの取扱から生じる結果について、十分理解していることを署名により成約しなければならない。訓練は継続的に行う必要がある。 例えば倫理誓約書への署名を年に一回もとめるなど。 通達はすべての従業員に届かなければならない。 |
ロードマップ | 経営陣が承認する活動スケジュールが含まれていなければならない。 | ロードマップは適用されるすべての法律と文化的押印をカバーしている必要がある。 |
監査と監視へのアプローチ | 倫理観と倫理規定は訓練を通じて徹底される。 | その活動が原則に従って遂行されることを確認するため、個別のアクティビテを監視することも推奨される。 |
社会的責任を持つ倫理リスクモデルの採用
BI、アナリティクス、データサイエンスに携わるデータ専門家は以下のような事項を記録するデータに責任を持つ。
- その人は誰か。出身国、
- 人種、民族、宗教的特徴を含む
- その人の行動。
- 政治的、社会的、潜在的な犯罪行為を含む
- その人が住んでいる場所。
- 所持している金額、購入したもの、会話の相手、テキストやメールを送る相手
- その人の扱われかた。
- スコアリングやウェブ上の選考追跡などの分析の結果から優先的に、特権を与えられたり将来の取引から外されたりする子を含む。
これらのデータが誤用されると、データ倫理の原則である人格、善意、正義の尊重に反する恐れがある。
BI、アナリティクス、データサイエンスの活動にはどれも倫理的視点が必要になる。
その視点は人々が働いている組織の境界を超えて広がるので、広範なコミュニティに対する影響を考慮すべきである。
倫理的視点が必要なのは、データが誤用されやすい殻だけではなく、データによって害を及ぼさないかという社会的責任を負っているため。
例えば、組織は好ましくない顧客という基準を設定し、そうみなした個人との取引を止める事ができる。
しかし、その組織が特定の地域で不可欠なサービスを独占している場合、「好ましくない」顧客とみなされた個人は不可欠なサービスを受けられないことになり
組織の決定のために被害にあってしまう。
データ倫理とガバナンス
データガバナンスと法律顧問双方の監督下において、データが適切に取り扱われているかどうかが監視される。
彼ららは共に法律の変更について最新の情報を入手し、従業員が義務を認識できるして倫理的に不適切であることで生じするリスクを減らす必要がある。
データ取扱業務の規程とポリシーを設定し、データ取扱業務を監視しなければならない。
従業員は公正な取り扱い、違反の危険性を申告してもあんぜんであること、個人生活に鑑賞されないこと、を要求できる。
データガバナンスにあたってBI、アナリティクス、データサイエンス研究に基づく計画や意思決定を監視すべき要件とみなし、それらをレビューする。
考察
データを取り扱いをする組織では、法律や業界ルール等を準拠するための仕組みとして
リスクを分析し、そのリスクを軽減するための仕組みを用意する必要がある。
また、その仕組が守られているか監視する仕組みが必要があると理解しました。