Welcome Okera: Adopting an AI-centric approach to governance - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
この十年間、Databricksは世界中の企業におけるデータとAIの民主化にフォーカスしてきました。そして、昨年11月のChatGPTのデビューや最近のDolly 2.0の発表以来、すべてのお客様がどのようにAIと大規模言語モデル(LLM)のパワーを自分のビジネスで活用できるのかを尋ねるようになりました。これらの質問のすぐあとに、彼らはこの新世界でどのように自分たちのデータに対するセキュリティやプライバシーを防御できるのかを質問しています。
だからこそ、世界初のAIセントリックデータガバナンスプラットフォームであるOkeraの買収に合意したことを発表できることを嬉しく思っています。OkeraはデータやAIの領域におけるデータプライバシーやガバナンスの課題を解決します。データの可視性や透明性をシンプルにすることで、企業がLLMの時代において重要であるデータの理解の助けとなり、それらのバイアスに関する懸念に対応することが可能となります。
AIはどのようにデータガバナンスを変革するのか?
これまでは、洗練度合いに関係なくデータガバナンスの技術は、いくつかの絞られたレイヤーにおけるコントロールの強制に依存しており、ワークロードをこのレイヤーにおける「壁で囲われた庭(walled garden)」にフィットさせる必要がありました。例えば、クラウドデータウェアハウスはアクセスコントロールにSQLを必要としますが、これはすべてのワークロードがSQLにフィットする限りにおいては効率的なものです。これは、データの主要なアプリケーションがSQLクエリーを生成するBIレポートのようにSQLセントリックであったこの数十年間はうまくいっていました。
AI、特に機械学習モデルやLLMの勃興によって、このアプローチだけでは不十分になりました。第一に、AIで使用されるデータは人間が生成したものではなく機械が生成するものとなるため、企業が管理すべきデータ資産の数は指数関数的となります。第二に、AIの領域における高速な開発スピードのため、最先端の技術を補足するのに十分な表現能力を持つ壁で囲われた庭を単一の企業で作成することはできません。あるベンダーは自身のSQLベースのデータウェアハウスのアクセスコントロールを強制することはできますが、全てのオープンソースライブラリをこの庭における特定のコントロールに準拠するように変更することはできないでしょう。これは、起源やバイアスのようなAI固有のガバナンスの懸念事項は、従来型のデータガバナンスプラットフォームの範疇外になってしまうことを意味します。
OkeraのAIセントリックのガバナンステクノロジー
Okeraのデータガバナンスプラットフォームは、この新世界におけるデータガバナンスの課題に対応できる2つのユニークなテクノロジーを提供します。
最初に、Okeraは個人情報(PII)のような機微データを自動で発見、分類、タグ付けできる直感的でAI支援のインタフェースを提供します。これらのタグによって、データガバナンスのステークホルダーは、容易にコンプライアンスを評価し、データに対する可視性やコントロールを改善するノーコードのアクセスポリシーを作成することができるようになります。また、Okeraは機微データの使用をクイックに監査、分析できるセルフサービスのポータルも提供し、企業は信頼性を持ってデータの利用パターンを監視、追跡できるようになります。これによって、多くがAIによって生成されるデータ資産の爆発の中でも、ガバナンスポリシーが一貫性を持って適用されていることを保証できるようになります。
次に、Oktaにはパフォーマンスを犠牲にすることなしに、ガバナンスコントロールを強制しつつも、任意のワークロードをサポートできる新たなアイソレーションテクノロジーを開発し続けています。このテクノロジーはプライベートプレビューであり、数多くの連携しているお客様のAIワークロードでテストされている状況です。これは、新世界におけるアプリケーション領域の全体をカバーしていることを効率的に保証するキーとなる技術です。間も無く、我々はこの新技術のギジュ的証左を共有する予定です。
OkeraとUnity Catalog
レイクハウスは、データとAIアプリケーションを開発し、LLMを構築するにはベストな場所と言えます。我々のレイクハウスのビジョンは、一つのプラットフォームでこれらのワークロードを統合することを中心としています。我々のレイクハウスビジョンの基盤には、すべてのデータ、AIワークロードのデータがバンスレイヤーであるUnity Catalogがあります。我々は、OkuraのAIセントリックガバナンステクノロジーをUnity Catalogにインテグレーションするつもりです。
我々のお客様は、属性ベース、意図ベースのアクセスポリシーを用いて、すべてのデータ、分析、(MLモデルやモデルの特徴量を含む)AI資産を発見、分類、管理するためにAIを活用できるようになります。さらに、レイクハウスにおけるエンドツーエンドのデータの可視性のメリットを享受することができ、分析、AIアプリケーションにおける機微データの利用を監査、レポートできるようになり、カラムレベルまでデータリネージを自動で追跡できるようになります。
これらの機能強化によって、我々のお客様はクラウド横断のデータ領域における包括的なビューを手に入れることができ、アクセスポリシーを定義するために単一の権限モデルを活用し、レイクハウスにおけるAIユースケースを加速し、一貫性のあるガバナンスを実現します。また、間も無くの買収によって、他のデータガバナンスパートナーが活用できるよりリッチなポリシーのためのAPIを公開し、お客様にシームレスなソリューションを提供することになります。
Okeraチーム
Databricksに馴染みのあるOkeraチームをお迎えできることについて、これ以上の喜びはありません。共同創始者でありCEOであるNong Liは、Databricksや業界の他に企業も依存しているオープンソースの標準的なストレージフォーマットであるApache Parquetを作成した方としてよく知られています。また、Nongは以前にもDatabricksで重要な役割を担っています: 彼はApache Spark 2.0における10倍のパフォーマンス改善につながったベクトル化Parquetの取り組みやcodegenの取り組みをリードしました。
Okeraの素晴らしい技術の背後には、Nongが組成した素晴らしいチームが存在しています。彼らとの会話をスタートした際、我々は二つの企業は非常にうまく力を合わせて組み合わされるだろうと言うことを知りました。
「我々は、モダンでデータドリブンの企業が、データセキュリティのリスクを最小化し、規制に対するコンプライアンスを提供しつつも、正当なデータアクセスを加速するお手伝いをするためにOkeraを立ち上げました。様々なアプリケーションにおいてデータのボリューム、速度、種類が増加しており、経営層のCIO、CDO、CEOはこれら競合する取り組みのバランスを取る必要があります - 言うまでもないことですが、複数のクラウドにまたがってアクセスポリシーを管理することは苦痛で時間を浪費するものです。多くの企業では、特にLLMの爆発によるものですが、大規模なアクセスポリシーを管理できる人材がいません。彼らが必要とするのは、モダンでAIセントリックなソリューションです。世界で最も考えが進んでいるいくつかの企業に対してセキュア、スケーラブル、シンプルなガバナンスソリューションを構築するために、Databricksチームにジョインし、我々の専門性を提供できることはこれ以上にない喜びです。」— Nong Li, Co-Founder and CEO of Okera
次に来るのは?
Nongと信じられないほどの能力を持ったOkeraチームをDatabricksにお迎えできることを非常に嬉しく思っています。向こう一年で、Okeraのコア機能を直接Databricksプラットフォームに組み込む予定であり、Unity Catalogによって提供される統合され、AIセントリックのガバナンス体験を強化します。
今年6月のData and AI Summitでの続報をお待ちください。