本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
この記事はAmgenのSenior Manager, Information SystemsであるJaison DominicとZS AssociatesのDirector of Architecture and EngineeringであるLakhan Prajapatiによるものです。
世界最大の独立系バイオテック企業であるAmgenは長きにわたりイノベーションの代名詞となっています。40年間、我々は新たな創薬プロセスでのパイオニアであり、命を救う薬品を開発し、世界中の数百万人の命にポジティブなインパクトを与えています。
我々のビジネス戦略においてデータとAIは重要なものとなっています。我々の企業にある膨大なデータを認識することで我々のビジョンは、データ分析者がセルフサービスのガバナンス能力を通じてアクセス可能となるようなデータドリブンの企業を確立するというものでした。モダン化の追求の中で、我々のデジタルトランスフォーメーションのジャーニーの基盤として注意深くDatabricksレイクハウスプラットフォームを選定しました。この戦略的な意思決定によって、様々な部門においてデータとAIの真のポテンシャルを解放することができ、オペレーションの効率性を改善し、創薬を加速しました。我々は、様々な領域のデータレイクを制限がありセンシティブなデータで継続的に補強しているので、我々のインパクトはさらに拡大しています。
さらに、我々は自身の取り組みを補うために、強化されたデータガバナンスを必要としていることに気づきました。これまでのデータガバナンスソリューションは複雑で、管理が大変で、きめ細かいアクセスコントロールができませんでした。これらの障害に取り組み、企業に我々のガバナンス能力を広く行き渡らせるために、最近になって我々のガバナンスプロセスにDatabricks Unity Catalogをインテグレーションしました。このインテグレーションは、我々のジャーニーにおける重要なマイルストーンであり、きめ細かいアクセスコントロールを提供しつつも管理をシンプルにし、ユーザーフレンドリーである堅牢なソリューションを提供することで、データガバナンスを支援します。
本日は、皆様が我々のジャーニーから学びを得、ご自身のビジネス戦略に適用することになればと思い、これまでの我々の進捗と成功を共有します。
ガバナンスでのIAMロールの利用は管理が困難で、きめ細かいアクセスコントロールに欠けていました
Amgenは、コンプライアンスが我々のオペレーションの基盤である高度に規制された業界でビジネスを行っています。我々は、規制されたあるいはセンシティブなデータの全てに対する適切なガバナンスや監査可能性が非常に重要であることを理解しています。我々のエンタープライズデータレイクプロジェクトにおいては、すべてのAmgenユーザーが利用可能なデータにアクセスできるようになるデータの民主化が元々の目標でした。しかし、データレイクにセンシティブなデータを取り込むことで、より堅牢なデータアクセスのガバナンスの重要性が明らかになりました。
これまでは、エンタープライズデータカタログとしてAWSのGlue、ロールベースのアクセス管理ではAWSのidentity and access management (IAM)に依存していました。これには、特定のユースケースに合わせた個別のIAMロールの作成、固有のクラスターへの関連付けが含まれていました。しかし、膨大な数のグループの管理とクラスターリソースへの関連付けは、大きな課題を生み出すことになりました。さらに、IAMロールはストレージへのアクセスのみを制御するので、メタデータには誰でもアクセスできてしまいました。きめ細かいアクセスコントロールの欠如によって監査は複雑なタスクとなり、データアクセスを監査し、効果的にクエリーを実行する我々の能力の妨げとなっていました。
これらの課題に取り組むために、ユーザーレベルのアクセスやユーザーの属性ベースのアクセス制御に移行すべき必要性を認識しました。例えば、ユーザーはコストセンターのような属性に割り当てられ、Financeのデータは割り当てられたコストセンターに基づいて制御されることになるでしょう。しかし、IAMによるユーザー属性ベースのアクセスコントロールの実装には、膨大な数のロールの作成が必要となり、非常に大きな管理負荷が発生することになります。
我々はいくつかのoff-the-shelfのガバナンスツールを評価しました。いくつかのツールはデータベースレベルでのテーブル管理のように直近の要件を満たしていましたが、EDW (Finance)やWorkday (HR)のような行動に制限されたデータドメインでは不適切であることがわかりました。さらに、Databricksクラスター上のこれらのツールをバイパスして潜在的な脆弱性を引き起こしてしまうことや、すべてのクラスターに対して包括的なカバレッジを保証し、ソリューションをスケールさせることに関して懸念を持ちました。加えて、特定のクラスターでのプラグインを維持管理することは、スクリプトの一貫性や実行中のメンテナンスの観点での課題を引き起こすことになりました。
Unity Catalogに移行することでアクセス管理がシンプルになり、コンプライアンスへの非準拠やセキュリティ事故が撲滅されました
現在、我々のユースケースの90%はDatabricks上にあります。このため、長期においてはDatabricksネイティブのガバナンスソリューションが必要であると感じました。この方向に一歩を踏み出すために、Unity Catalogに目を向けました。
Unity Catalogを導入することで、いくつかのメリットをすぐに享受することができました。
- 初めに、少なくとも120+のIAMロールを作成、管理する必要がありませんでした。Unity CatalogやUnity Catalogが提供するAPIを通じてアクセスをコントロールできます。すべてはアクセスコントロールリスト(ACL)やダイナミックビューによって管理されます。これによって、数百のIAMロールからわずか1つあるいは2つのプリンシパルIAMロールに移行しました。
- 我々が理解した二つ目のメリットは、容易な監査可能性です。Unity CatalogのALCの編集はIAMポリシーのパーシングよりもはるかに簡単であり、誰が何にアクセスできるのかを特定できます。これによって、機能に対する監査の工数を50%削減しています。クエリー履歴によって、ある特定の時点で誰がどのデータにアクセスしたのかを確認することができます。
- Unity Catalogは管理が容易です。ユーザーとロールベースのアクセスコントロールによって、専用のクラスターベースのアクセスから共有クラスタープールに移行することができ、Databricksのコストを10-20%削減できました。
- 中央の場所で全てを統合することで、シームレスな機能横断のデータ分析を可能とし、Databricksエコシステムとの密なインテグレーションは真の差別化要因を提供します。
現時点で、500程度のオブジェクト(増加中です)をUnity Catalogでマッピングしており、ACLで管理しています。Unity Catalogに移行して以来、データガバナンスやコンプライアンスへの準拠に対してさらなる自信を持つことができています。より多くの機能をオンボーディングし始めることで、これらのメリットが増大することを予想しています。
我々のDatabricks Unity Catalogによる成功をさらに推し進めます
これは我々のジャーニーの始まりに過ぎません。今後我々はより大きなビジョンを持っており、AWS Glueから大部分のデータ資産をUnity Catalogに移行するというゴールに向けて、推進するための戦略を入念に組み立てています。我和の企業におけるデータランドスケープには数多くのデータドメイン、数千のデータベース、数百万のオブジェクトが含まれており、Unity Catalogが我々のデフォルトのカタログになる予定です。この戦略的なシフトは、我々のデータエコシステムを改善し、統合することになり、我々の広範囲なデータ資産のシームレスな管理と探索を可能にします。
観測可能性を強化するために、我々はUnity Catalogのデータリネージ機能を活用し、データ作成における自信を確立し、我々のデータ資産におけるセンシティブなデータの利用を追跡する予定です。さらに、外部データ共有でUnity CatalogでDelta Sharingを活用することについて前向きに検討しています。現時点では内部でのデータ共有ですが、我々はアクティブにコレクションとDelta Sharingを通じた外部データの共有を探索しています。
まとめとなりますが、Unity Catalogのインテグレーションは、FinanceやWorkdayを含むAmgenの厳密に制限されたデータセットに対する正確で複雑なガバナンスポリシーを実装する我々の能力を強化しました。この特筆すべき偉業によって、我々のデータエンジニアリング部門で非常に大きなやる気が発生し、Unity Catalogが中央のメタストアやアクセス管理サービスとして動作することで、我々のデータプラットフォームへの投資が増加しました。来年を見据えると、Unity CatalogがAmgenにおけるアプリケーションデータ利用の80%以上を促進し、10,000以上のアクティブユーザーの広大なユーザーベースのメリットになることを予想しています。このシフトによって、監査やアクセス管理において60-80%の効率性の改善の達成する見込みであり、我々の分析能力の拡張を刑ぞkすることで、我々の企業が成功に向かっていくものと固く信じています。
詳細はData and AI Summit 2023のプレゼンテーションをご覧ください。