Top Four Characteristics of Successful Data and AI-driven Companiesの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksにおいて我々は、数千の組織がクラウドファーストとなり、アナリティクスとAIを用いて大規模データから価値を抽出するために、自身のデータアーキテクチャを近代化するお手伝いをさせていただいています。過去数年間を通じて、我々は様々な業界、地域のお客様と直接エンゲージし、彼らのデータドリブンな野望、そしてそこに到達する彼らの能力をスローダウンするような障害物を見てきました。課題は業界ごと、さらには組織ごとに大きく異なりますが、我々はデータ、AIドリブンな企業の特徴トップ4の十分な理解に至りました。
これらの特徴の詳細に入る前に、データ戦略を有効にするために企業がどのようなアプローチを取ったのかをクイックに見ていきましょう。最初にデータチームは、データウェアハウス、データエンジニアリング、ストリーミングリアルタイムデータサイエンス、機械学習といったテクノロジースタックに基づいて考え方を推し進めるための技術的な決断をしました。問題はビジネスユニットがどのように考えるかということではありません。彼らはユースケース、意思決定プロセス、ビジネス課題(カスタマー360、パーソナライゼーション、不正検知など)を検討します。結果として、ユースケースの実現には、テクノロジースタックにまたがった複雑なつぎはぎが必要となっていました。このペインポイントは個人特有のものではありません。DatabricksとMIT Technology Reviewによる最近の調査では、調査した企業の87%が自身のデータ戦略を成功させようとして奮闘しているとのことでした。多くの場合、これは「テクノロジースタック」のフォーカスに対する自身のアプローチに立ち返ることになります。第二に、すぐに利用できるオファリングを買うのではなく、カスタムのソリューションを構築するために、ITチーム内の強力なサポートが必要であり続けています。これは、カスタムソリューションが正しい選択である妥当なシナリオが存在しないということを言おうとしているのではなく、多くの場合、テクノロジーベンダーはチームがよりビジネス価値を迅速に生みだせる活動にフォーカスできるように、共通かつ変化の少ないユースケースの大部分を解決しようとしています。最後に、人材の観点においては、組織は技術をビジネス成果に結びつける自身の戦略を推し進めていましたが、データ周辺の企業文化に対応していなかったために失敗していました。実際のところ、2022 Data and AI Leadership Executive Surveyでは回答者の91.9%が
データドリブン企業になる際の最大の課題が文化であると述べています。
幸運なことに、これらの課題を解決することは可能ですが、異なるアプローチが必要となります。我々は現在、優れたデータとAIのユースケースを実行するためには、レガシーかつサイロ化されたテクノロジースタックが統合されたアプローチに道を譲るべきだということを理解する「データルネッサンス」の時代にいます。言い換えると、これは単にデータ分析やML(機械学習)に関することでなく、企業全体におけるデータ、分析、AIプラットフォームの構築に関することです。また、彼らは自身のデータチームがテクノロジースタックを構築することではなく、ビジネス価値の創出に集中できるように、より多くのターンキーソリューションで強化する必要があることを理解しています。また、戦略はトップダウンの権威主義的な取り組みではなく、データリテラシー、データを日常生活で活用できるようにする能力を改善するためのトレーニングによってサポートされるべきであると企業は認識しています。究極的には、すべての企業は、物事をシンプルにしつつも、これら全てをどのように達成するのかを明らかにしようとしています。皆様はどのように取り組まれるのでしょうか?以降では、データ&AIドリブン企業として成功している企業で共通している習慣を説明します。
1. AIの未来を信じている
最初にDatabricksのジャーニーを始めた際、どのように高品質のデータが分析において重要なのか、さらにはAIにとって重要なのかを我々は議論しました。そして、特にデータ・ドリブンの意思決定においては、AIが未来を形作っています。時を経て、パーソナライゼーション、予測、ワクチン発見、解約分析のようなユースケースが加速し、AIによって進化すると、人々はAIに未来があるという事実に適応していきました。「何が起きた?」を尋ねることから、今では「なぜ?」や高精度の予測、最終的には未来の結果、ビジネス上の意思決定に影響を及ぼすことに考え方がシフトしてきています。そして、Rolls-Royce、ABN AMRO、Shell、Regeneron、Comcast、HSBCのような世界中の企業は、新たな能力を提供するため、あるいは、既存の能力を劇的に強化するために、先進的な分析やAIにデータを活用しています。そして、我々はこの事象をあらゆる業種で見ています。実際、WarnerMediaのData&AI SVPであるDuan Pengは、「AIインパクトは始まったばかりです。向こう数年で、顧客体験を改めて想像するためにAIがどのように使われるのかのケースが劇的に増えることでしょう」と信じています。
2. 未来がオープンであることを理解している
もしやり直しボタンがあったとしたら、データ&テクノロジーリーダーの50%が、自身のデータアーキテクチャをよりオープンスタンダード、オープンフォーマットのものを取り入れたい、言い換えると選択性を手に入れたいと述べているMITの興味深いレポートがあります。このアプローチの課題は、多くのデータ実践者、リーダーは「オープン」をオンプレミスの世界の文脈(すなわちApache Hadoop)でオープンソースに厳密に結びつけてしまうということです。しかし、多くの場合、あなたはオープンソースのエンジンを手に入れることができ、これはその周辺のサービス、サポートをどのように手に入れるのかという話になります。
CIO、CDOと会話する中で、オープンが何を意味するのかを聞いてみると、これは主に3つのポイントで考えることができます。第一に、彼らが使っている既存のソリューションに関してであり、可搬性のコストはどの程度か?という話になります。GitHubにあるいくつかのコードをどこかに再投稿することは意義のあることかと思いますが、これは彼らが気にすることではありません。彼らが本当に気にするのは、能力とコストの観点でプラットフォームからどのように移行するのかに関する実行可能性です。次に、これらの能力がどれだけ簡単に豊富なエコシステムに組み込めるのか、内製か他のベンダーの製品を活用するのかどうかということです。三つ目として、オンボーディングする際、社内の実践者の学習曲線がどのようなものか、ということです。彼らがスピードを上げられるようになるまでにはどのくらい時間がかかるのか?
すべての企業は、アップグレードをしつつも飛び続けなくてはいけないというプレッシャーに晒されていますが、どのように飛び、アップグレードするのかに関して複数の選択肢がある地点に到達するにつれて、このオープンな性質が未来に対する選択肢を広げることになりました。オープンスタンダード、オープンフォーマットを活用することで得られる選択性は、戦略の優先付けを強化している企業においては重要なコンポーネントとなりつつあります。
3. マルチクラウドに備えている
データ&AIドリブンの企業には3つのタイプが存在します。既にマルチクラウドである企業、マルチクラウドになろうとしている企業、マルチクラウドの壁に直面している企業です。実際、Accentureは、2021年以降のクラウドトレンドの4つ目としてマルチクラウドを予測しています。マルチクラウドのアプローチには、クラウド固有のベストオブブリードのツールによる新機能の活用、M&A、規制のようなビジネス上の対応、顧客のクラウド固有要件など様々なドライバーが存在します。しかし、最大のドライバーは経済性の活用です。クラウドの導入が進み、データ画像だすると、多くの人にとってクラウドインフラストラクチャのコストが最大の支出となり得ます。企業がマルチクラウドを検討すると、要件として二つの事柄が浮上してきます。第一に、エンドユーザーのエクスペリエンスは同一であるべきであるということです。どのようにデータを管理するのか、分析を実行するのか、モデルを構築するのかを、クラウドプロバイダーごとにエンドユーザーが考えるべきではないと、データリーダーは考えています。第二に、この一貫性の追求においては、劣後した機能を利用したいとも考えています。クラウドプロバイダーは自身のインフラストラクチャに多大なる投資をしています。そして、成功している企業は、それぞれのクラウドで運用を行なっており、そのことを保証する必要性を認識していますが、システムは性能、機能、課金の観点で、それらのクラウドと深く連携しており、適切化することが非常に困難です。
4. データアーキテクチャをシンプルにしている
生産性と効率は重要です。最終的に、あらゆる近代化の努力は、企業が新たな洞察を絵、データプロダクトを構築し、イノベーションを迅速に提供するにための企業の能力に対してドミノ効果を持つ生産性を向上させる手段としてのアーキテクチャをシンプルにすることを狙いとしています。企業は自身のデータチームが単なるインフラストラクチャの管理やニュースの報告ではなく、ビジネス課題の解決、新たな機会の創出にフォーカスしてほしいと考えています。例としては、MLプロダクトを構築する際に必要となる税金の概要を説明するために発行されたGoogleの“Hidden Technical Debt in Machine Learning Systems”が挙げられます。最終的にこの調査は、データチームはビジネスを前進させる実際のMLコードよりも、データのキュレーション、管理、パイプラインなどにより多くの時間を費やしていると結論づけています。
このことは別の疑問を惹起します。どうしたら、データチームは可能な限り自動化を行い、針を動かすために必要なことにフォーカスできるのでしょうか?多くの企業では、全てを構築することを愛しているエンジニアを抱えています。しかし、「全てを自分で作ることが正しいアプローチなのか?」と尋ねたくなるでしょう。どのように、コアの強みと競合優位性にフォーカスできるのでしょうか?あらゆる企業における根本的な要件は同じではありません。実際、多くの人が同じ旅路におり、サードパーティのソリューションは信じられないほど効率的にターンキーのタスクの自動化を行えるようになっています。ご自身の全体的なTCOを引き下げて、より迅速に動けるようになるのに根本的にどれだけの価値があるのかを自身の胸に聞いてみてください。あるいは、PETRONASのHead of Enterprise DataであるHabsah Nordinが言うように、「自分のテクノロジースタックがどれだけ洗練されているかと言う話ではありません。手持ちのデータから最大限の価値を生み出すのに役立つのか?にフォーカスすべきです」と考えてみてはいかがでしょうか。
このようにシンプルであるならば、どうして多くの人が奮闘しているのか?
回答:分断し、二極化したテクノロジースタックが肥大化し、さらに複雑になっているためです。以下の図は多くの企業で実際に起きていることをシンプルにしたものです。実際、13%の企業のみが、実際に自身のデータ戦略を成功させており、素晴らしいデータ管理と適切なアーキテクチャの基盤を構築することに責任を持っています。
多くの企業では、すべての到着データを最初にデータレイクに格納していますが、これを利用可能な状態にするためには、異なる4つのサイロ化されたスタックを構築しなくてはなりません。赤い点線が、異なるシステム間でコピー・移動する必要がある顧客と製品データを表現しています。この複雑性は、互いに相容れない二つの異なるアプローチが存在することに起因しています。
一方では、あなたはオープンなデータレイクを管理しています。もう一方では、プロプライエタリなデータウェアハウスを管理しています。これらには真の互換性はありません。一方はPython、Javaを主にベースとしています。もう一方は主にSQLをベースとしており、これら二つの世界はうまく組み合わせたり、一致させたりすることができません。また、互換性のないセキュリティ、ガバナンスモデルという課題もあります。このため、ファイルに対するセキュリティ、ガバナンスはデータレイクで行い、テーブルとカラムに関してはデータウェアハウスで管理を行う必要があります。これらは、くっつき合うのではなく、互いに反発し合う磁石のようなものであり、上述した4つの特徴に基づいて企業がより広範な基盤を構築することをほぼ不可能にしてしまっています。データウェアハウスのオリジナルのアーキテクトであるBill Inmonですらも、上述した図で説明されている現状の事柄が、向こう十数年のイノベーションを解放するものではないと理解しています。
レイクとウェアハウスの偉大なる収束
企業は自身のアプローチを検討していますが、そこには2つの経路のみが存在しています。レイクファーストかウェアハウスファーストかです。まず初めに数十年に渡り利用されているデータウェアハウスを探索してみましょう。ニュースを報告することにフォーカスした、ビジネスアナリティクスとバックミラーデータ分析においては、非常に優れたものと言えます。しかし、先進的な分析は得意としておらず、新たなユースケースに対応するために、データチームがすべてのデータをデータレイクに格納することになると途端に問題は複雑なものになります。さらに、データウェアハウスは大量データを取り扱おうとすると高価になる傾向があります。現在ではデータの大部分が格納されているデータレイクは、これらの課題の多くを解決します。ここ数年で、ML、AIをネイティブにサポートするデータストリーム、データリバー、データ貯水池のような数多くの水に関するアナロジーが生まれました。しかし、コアとなるビジネスインテリジェンス(BI)ユースケースにおいてはうまく動作せず、データウェアハウスが備えていたデータ品質、データガバナンスの要素が欠けていました。データレイクは多くのケースでデータスワンプ(沼)になってしまいます。結果として、データレイクハウスアーキテクチャの誕生とともに、レイクとウェアハウスの収束を目の当たりにしています。
レイクハウスは、レイクファーストアプローチ(FAQをご覧ください)を用いてデータウェアハウスとデータレイクの長所を組み合わせます。既にデータレイクにデータがあるのに、どうしてデータウェアハウスに移行して閉じ込めてしまうのでしょうか...そして、AI、分析の両方のユースケースを実行しようとして悲惨な目に遭うのでしょうか?そうではなく、レイクハウスアーキテクチャを用いることで、成功しているデータ&AI企業で見受けられる習慣に基づいた基盤構築が可能となります。すべての企業データを解放し、使いやすく自動化された、監査可能なツールでサポートされたレイクファーストアプローチを取ることで、AIの未来は驚くほど実現可能なものになります。また、企業はかつては御伽噺と考えられていた選択性を手に入れることができます。真のレイクハウスアーキテクチャはオープンスタンダード、オープンファオーマットの上に構築されるものです。(そして、DatabricksプラットフォームはDelta Lake、MLflow、Apache Spark™上で構築されています)これにより、企業は広範な既存あるいは未来のテクノロジー、そして、膨大な人材プールへのアクセスを活用することができます。また、この選択性は、マルチクラウドを活用できるだけではなく、クラウドプロバイダーにデータがあるのかに関係なしに一つのプラットフォームで皆様のユーザーに一貫性のあるエクスペリエンスを提供することでマルチクラウドに備えることがきます。最後にシンプルさを語らずには終われません。異なる目的のために構築された二つの完全に異なるテクノロジースタックによる複雑性を削減することができ、シンプルなテクノロジーランドスケープが完全に実現可能なものになります。
ここで持ち帰っていただきたいことは、あなたは一人で旅路にいるわけではなく、データドリブンのイノベーションハブになるためにデータ、分析、AIプラットフォームをシンプルにしようとしている企業が様々な業界、地域に存在しており、偉大な事例が生み出されていると言うことです。データドリブンの組織を構築するためのベストプラクティスに関しては、Enabling Data and AI at Scale strategy guideを参照ください。また、唯一のクラウドネイティブベンダーとして、Databricksがクラウドデータベース管理システムとデータサイエンス、機械学習プラットフォームのマジッククアドラント(MQ)の両方でリーダーに指名された最新の2021 Gartner Magic Quadrantsもご覧下さい。