正直なところ、アーキテクチャーフレームワークはPowerPointのスライドに記載した瞬間から、その有効性が徐々に失われていきます。Dataikuで何千人ものお客様や潜在的なお客様とデータアーキテクチャーについて話し合った結果、一つ学んだことがあります。それは、これらのフレームワークが現実的というよりも理想的になりがちだということです。なぜなら、企業レベルでは、データアーキテクチャーは複雑かつ絶え間なく変化しているからです。
その結果、最新の「モダンデータアーキテクチャー戦略」では、「何を」よりは、むしろ「どのように」が最も重要な要素になり得ます。
- 自社のアーキテクチャーは、変化するニーズや技術要件に簡単に適応できる柔軟性がありますか
- 組織全体のデータ活用に対する目標が、今後1年、5年、10年と変化する中で、その変化をデータアーキテクチャーは十分に支えられますか
- 下流のデータ消費だけでなく、上流(アプリケーション、API、Web サイトなどの他のサービスでデータがどのように利用できるか)についても、データ、アーキテクチャー、ビジネス戦略を考えているでしょうか
この記事では、「モダンデータスタック」にも少し触れますが、AIの拡張に理想的なアーキテクチャーがどのようなものか詳しく説明しません。なぜなら、結局のところ、理想的なアーキテクチャーは存在しないからです(少なくとも、すべての企業に適したアーキテクチャーは存在しません)。代わりに、チームが自分たちと(そしてさらに重要なことに)組織にとって最適なデータアーキテクチャーを決定し、構築するのに役立つ3つの重要な推奨事項に焦点を当てます。
モダンデータスタック
生成AIの台頭、クラウドデータの成熟、そしてデータ可用性の継続的な拡大により、変化のスピードはかつてないほど加速しています。組織は、現在そして将来のニーズを満たす最新のデータスタックアーキテクチャーを活用することで、計り知れない価値を実現できます。
データ、分析、そしてAI(生成AIを含む)を日常業務に活用することを真剣に取り組んでいる企業は、最新のデータスタックアーキテクチャーを採用しています。これは、エンタープライズ環境でAI導入の取り組みを始めたばかりのチームにとっても大きなメリットとなります。
現代のデータスタックに関連するバズワードとして、管理、サーバーレス、そして専門知識が不要といったものがあります。現代のデータスタックではストレージとコンピューティングが独立しているため(そしてクラウドデータウェアハウスは大量のデータを安価に保存できるため)、データ変換はオンデマンドで実行でき、IT部門の負担が軽減されます。
究極的には、データニーズが何であれ、現代のデータスタックはすべてのユーザーにシームレスなエクスペリエンスを提供することを目指しています。そして、以下のことを実現します。
- コーダーがクラウドデータウェアハウス上で高度なデータサイエンスを実行できるようにします(データ処理タスクのプッシュダウンだけでなく、データプロジェクトを迅速に運用化し、ビジネス側の消費者が活用できるようにする機能も含まれます)
- 非コーダー(アナリストなど)が独自のデータ変換と高度なデータ作業(予測ユースケースなど)を実行できるようにします
- マルチツール分析の結果をビジネスユーザーが活用している SaaSツールにプッシュバックするなど、運用化部分を自動化および調整します
既存のレガシー環境が複雑で、最新のデータスタックのシンプルさを十分に活かせない組織にとっても、全てのユーザーがデータを容易に扱える体験を提供することは、重要な価値となります。
データアーキテクチャー戦略 3つの鍵
1. 過度な集中化は避ける
データアーキテクチャーに関して言えば、過去5〜10年間、集中化が主流であり、それが行き過ぎている可能性もあります。実際、今日のITチームとリーダーの圧倒的多数は、おそらく過度に、そして何度も中央集権化を試みてきました。
Dataikuでは、多くのチーム(主にさまざまな業界の大規模な多国籍企業のチーム)とデータアーキテクチャーについて話し合います。「信頼できる唯一のデータソースであるデータウェアハウスはいくつありますか。」という質問に対する答えは、通常1つではありません。2つ、3つ、4つ、時にはそれ以上です。聞いたことがありますよね。
中央集権化の取り組みが何度も失敗してきた場合、解決策は中央集権化をさらに進めることではありませんが、実際そうなっていることも多いです。今日の中央集権化の取り組みは、次のようなものかもしれません。
- 「データとAIの取り組みから価値を引き出す前に、ガバナンスを整理する必要があります」
- 「本格的なデータサイエンス、機械学習(ML)、AIプロジェクトを始めるためのツールに投資する前に、データ品質の問題を解決する必要があります」
- 「クラウドへの移行を完了すれば、データからの投資収益を得られるようになります」
ガバナンス、データ品質、そしてクラウドへの移行は、間違いなく重要なトピックです。しかし、重要なのは、ITの観点からこうしたプロジェクトに取り組むことは非常に魅力的である一方で、ユースケースに基づいたより大規模な目標や目的を持たずに、集中化を進めても実際にはビジネス価値は生まれず、これらの分野への取り組みが最終的に失敗に終わる可能性が高いということです。
集中型と分散型のデータアーキテクチャーについて議論する際、今日最も流行している用語「データメッシュ」に言及しないのはほぼ不可能です。データメッシュの概念は、技術的な意味でのアーキテクチャーというよりも(もちろん、データメッシュアーキテクチャーやツールにも言及すべき点はありますが、今回は範囲外とします)、組織的な観点からのデータアーキテクチャーに関するものです。
簡単に言えば、データメッシュとは、ビジネスデータ資産の分散化とビジネス部門による所有権の確保を意味します。つまり、IT部門などの中央チームが事業部門全体にわたるデータの真の情報源を管理するのではなく、その責任をビジネス部門自身が負うということです。
このアプローチの利点は、ビジネス部門がデータの維持、活用、そして価値創造の責任を負えることです。結局のところ、IT部門が真実の情報源を所有していても、誰もそれに同意できなければ、その集中化は何の役にも立ちません。結局、各部門、チーム、個々の従業員がそれぞれ独自の顧客「単一ビュー」を作成(&再作成)するのは非効率なだけでなく、そもそもIT部門が集中化のために費やした労力が無駄になります。
一方、データメッシュアプローチの「デメリット」としては、実現するのが非常に難しいことです。DataikuのようなAIプラットフォームは、この移行のハードルを下げ、事業部門により多くの責任を委ねられます。しかし、いつもながら、テクノロジーは魔法の弾丸ではありません。移行には主に文化的な側面も大きく、真剣なチェンジマネジメントが必要になります。
IT部門とビジネス部門の間には、集中化と分散化をめぐる根本的な緊張関係が常にあります。しかし、テクノロジーだけではこの対立を解消することはできず、現実的にも解消されていません。この緊張関係を解消するには、ビジネスニーズとデータの所有者を可能な限り一致させることが必要です。つまり、データの意味、誰がデータを使うべきか、どのように使うべきかなどを、ドメインエキスパートに決定してもらう必要があるのです。
2. ITの役割を価値の創造&提供者として再定義する
データ実務家にとって最良のシナリオは、すべてのデータが同じテクノロジー上で利用可能かつアクセス可能であり、それらがすべて統合されていることです。残念ながら、主要なクラウドベンダーの製品の中には、すべてのデータを統合してビジネス価値を倍増させるような製品は存在しません。
運用システムやビジネスシステムから出力されるものは、それがどこにあっても(クラウド/オンプレミス、データレイク/ウェアハウス)排気ガスであり、その排気ガスを固体(つまり、価値ある洞察)にするには、人間の知性と技術が必要です。さまざまなシステムから排出されるすべての排気ガスを収集し、それを結晶化し、より簡単に流れるように液体に凝縮し、関連する液体を取り出して、固体(つまりビジネスチームが使用可能な数字の表)に凍結させる必要があります。
技術系か否かに関わらず、様々なチームにこのスキルを提供することが、現代の企業におけるITの役割の根幹です。DataikuがITエグゼクティブを対象に実施した調査によると、ほとんどの企業ではデータサイエンティストよりもアナリストの数が桁違いに多いことがわかりました。これは、企業内のより多くの社員にとって、データおよびデータから洞察を構築するスキルの獲得とさらなる浸透が必要であることを実証しています。
DataikuのようなAIプラットフォームがこの価値創出を支援できるというのは良いニュースです。組織全体の人々が、たとえ複数のソースからであっても、自らデータを収集し、IT部門の介入なしに統合できるようになります。DataikuのようなAIプラットフォームは、以下の方法でITチームの負担をさらに軽減し、データ処理や統合作業の遅れや負担の回避に役立ちます。
- データサイズと全体コストが上昇し続ける中、誰がデータを使用しているか、迅速な理解が可能
- データと分析の急増、増え続けるデータ需要、データ駆動型プロジェクトの再利用に対応
- データサイエンティストなどデータを定期的に使用するチームにデータ準備とETLをオフロード
- 弾力性、リソース最適化をサポートし、膨大なデータ、多数の同時使用、サービス提供に対応可能
たとえ組織が「すべてのデータ」(すべてのデータが存在することは実際はほとんどないですが・・)を一箇所に集約できたとしても、そのデータを変換・統合し、ビジネス価値を提供する作業は、完全には自動化できません(少なくとも現時点では)。この点を考慮して、パイプラインによる価値創造も促進できるよう、データアーキテクチャー戦略を策定することが不可欠です。
3. ビジネス目標に基づいてアーキテクチャーを決定する(その逆ではなく)
ビジネス目標を考慮する前に(もしくは、まったく考慮せずに)技術的な選択を行うと、次のような結果が生じる可能性があります。
- ビジネスケースよりもずっと詳細に定義、レビューされたアーキテクチャー図と計画のみが残る
- ビジネス側の用途を見つけることなく、最新のアーキテクチャートレンド活用の会話に終始する
- データからの価値創出に関する取り組みのはずが、ITやアーキテクチャーの議論から始まる
いずれにせよ、アーキテクチャーを先に設計し、ビジネスニーズを後から考慮するのは問題です。それはビジネスの観点からだけではありません。アーキテクチャーがサポートしていないデータで何かをしようとする人々がいるため、シャドーITの根本原因であることはよくあります。しかし、そのイニシアチブが十分な価値を持っている限り、彼らは何としてでもそれを行う方法を見つけ出すでしょう。
ビジネス目標に基づいてアーキテクチャーを構築するとは、実際には何を意味するのでしょうか?それは、次のような質問に答えることを意味します。
- 自社のビジネスと保有するデータを踏まえて、それを使ってどのようなことをしたいですか。販売しますか?それとも活用しますか。後者の場合、具体的に何のために使いますか
- これらすべてのデータを収集し、保存するビジネス上の目的は何ですか? 最終的にどのように使用されるのでしょうか?
効果:アーキテクチャーの選択がビジネスと整合していれば、技術的な選択自体がはるかに容易になります。焦点と最終目標が明確になります。どのアーキテクチャーが最もクールで革新的かといった主観的な議論ではなく、その目標を達成するには何が重要かという議論です。
AIの拡張とデータアーキテクチャー戦略にDataikuが果たす役割
Dataiku は技術ユーザーと非技術ユーザーの両方がデータや AI プロジェクトで共同作業できる統合環境を提供し、現代のデータアーキテクチャー戦略において中心的な役割を果たします。
Dataikuは柔軟性と拡張性を重視して設計されており、主要なクラウドプロバイダーとシームレスに統合、オンプレミス導入をサポートし、プッシュダウンアーキテクチャーを利用してSQL、Spark、Kubernetesなど既存のコンピューティングリソースを活用します。完全に管理されたKubernetesソリューション、モデルトレーニングのためのGPUアクセラレーション、チーム間の開発を効率化する堅牢な再利用機能を利用可能です。100以上のプラグインやDataiku LLM メッシュなどのツールによる拡張性により、ITチームはAIイニシアチブを企業全体に拡張しながら、統制を維持できます。
Dataikuとアーキテクチャーの詳細
Dataikuには幅広い選択肢があります。既存のインフラストラクチャーを活用する場合も、新しいツールを導入する場合も、エコシステムとシームレスに統合しながら、スタックを柔軟に拡張できます。複雑さを軽減し、価値を加速させる統合プラットフォームによって、このような価値を実現します。
→AIエコシステムについて、詳細はこちら
原文:3 Keys to a Modern Data Architecture Strategy Fit for Scaling AI