Five Challenges CIOs Need to Overcome in 2023 - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ITリーダーたちは近年の歴史で最も波乱に満ちた新年を踏み出しており、CIOたちはこれまで以上に2023年に適応し、突出するために自身の優先事項を再検討する必要に迫られています。
過去数年間は極端に破壊的であり、特にCIOへの影響は甚大です。彼らは変化し続ける市場のトレンドに追従するために自分たちのデジタルトランスフォーメーションのジャーニーを加速しつつも、景気悪化におけるコストカットの指標に対応し、人材の課題やリモートワーク、新たなデジタルサービスにおいて増加し続けるビジネス要件に対応しなくてはなりません。
これらの変化によって、CIOは進化し続けるビジネス環境に先んじるために、自分たちのアジェンダを再考し、自分たちのゴールや投資に対する優先度づけを見直さなくてはなりません。以下では、CIOが2023年に備えるためにフォーカスすべき5つの検討事項を示します。
データプラットフォームのモダン化
多くの組織にとって、パンデミックはクラウドの導入を加速することになり、多くの企業は2つ以上のクラウドプロバイダーを利用するようになりましたが、Hadoopのようなオンプレミスのデータレイク、Oracle、Netezza、Teradata、Greenplumのようなクラウド、エンタープライズデータウェアハウスに依然として多くのワークロードが残っており、コストやリソース、アジャイルかつイノベーティブになるための能力に対する負荷となっています。
これらのレガシーシステムの維持に必要となるライセンス費用は、多くの場合、大企業においては年間数百万ドルにも達し、ライセンス自体は通常、コスト算出式の一部に過ぎません。ハードウェアの維持や利用料はトータルコストの20%を占め、これらのシステムをサポートするDevOpsの負荷も発生します。
これらのテクノロジーのモダン化が2023年では重要となります。そして、我々はすでにいくつかの大企業でこれが起きているのを目撃しています。データエンジニアやデータサイエンティストの生産性を25%改善し、モダンなクラウドベースの分析プラットフォームを活用することでデータパイプラインを9倍高速にし、Databricksレイクハウスのような新しいテクノロジーに移行した、Nationwideを例に挙げておきます。
技術の統合
クラウド、モバイル、ソーシャル、AI、IoTデータの勃興によって、構造化データ、非構造化データ両方においてデータの量が想像できない量で爆発的に増加し続けることは秘密でもなんでもありません。新たなデータによるマネタイゼーションや新製品の開発のために膨大な量のデータが活用されていません。このため、これら全てを管理するためのシステムが大量に生まれています。FirstMarkのVCである有名なMatt Turckと、彼の2021年のMachine Learning, AI and Data Landscapeを見てみましょう。彼が言及しているように、膨大なVCの融資、ユニコーンの創出やIPOによって、めまいがするような膨大な新たなデータ&AIテクノロジーが生まれています(こちらからご自身で確認してください)。
CIOの最高の優先度の一つは、ご自身のデータ領域のコントロールを取り戻し、これらのシステムを統合することになるでしょう。これらのテーラーメードのツールチェーンのすべてをデータチームのすべてが管理することは持続可能なものではなく、技術の肥大化、非効率性、機会損失につながります。CIOはこれまで以上に、競争優位性を保ちつも低コストでこれら全てのテクノロジーをデリバリーする要件に晒されています。これらの技術スタックの統合と最適化が鍵となります。
レイクハウスパラダイムの出現によって、より多くの企業が自分たちのBI、AIインフラストラクチャの統合に活用している戦略の一つとなっています。実際、Gartner Hype Cycle for Data Management, 2022で、Gartnerは向こう2-5年でレイクハウスの導入はクリティカルマスに到達すると予測しています。レイクハウステクノロジーの基盤となるのは、Linuxファウンデーションによって支援されているデータ、分析、AIの作業台であるオープンソーステクノロジーであるDelta Lakeです。DatabrickのCEOかつ創始者であるAli Ghodsiをフィーチャーし、レイクハウスの歴史と利点にディープダイブしている素晴らしいポッドキャストがMatt Turckのサイトにあります。
コストの制御
新年を迎えるにあたってはさまざまな向かい風があり、コストの制御はすべてのCIOにとって間違いなく重要なものとなります。GartnerのSenior Director AnalystであるJames Andersonは「ステークホルダーにコストカットがサービスにどのようなインパクトがあるのか、節約が可能であるのかを示すことはCIOの役目です」と述べています1。IT予算は多くの企業で増加していますが、インフレと増加するコストは投資の新たな領域を侵食しており、既存サービスのコスト削減に対するプレッシャーが増加しています。レガシーデータプラットフォームを整理し、ベンダーを統合し、クラウド費用を最適化することは、CIOがリソースを節約し、新しくよりインパクトのあるイノベーションプロジェクトに投資する方法の一部です。
クラウドマイグレーションプロジェクトと技術統合は、間違いなくコスト制御の役に立ちますが、これだけでは十分ではありません。ITリーダーたちは、特に増加するクラウドウェアハウスのコストを検討する際、自分の既存インフラストラクチャとパフォーマンスを精査しなくてはなりません。コストは容易に制御不能となり、データが増加し、ユーザーによるウェアハウスに対するクエリーが増加すると、非常に大きな影響を及ぼすことになります。
ウェアハウスのコスト増加ベストな一撃を与える方法の一つは、以下のことを確立するというものです。
- プロプライエタリなデータフォーマットはクイックに変更できないので、オープンフォーマットを用いているデータウェアハウスを活用します。
- 大規模並列処理を活用するアーキテクチャを利用します。
- レーテンシーとスループットの両方を改善する技術を調査し導入します。
これはまさにDatabricksレイクハウスとDatabricks SQLが成し遂げたことです。印象深いことに、データウェアハウスに対するゴールド標準性能ベンチマークを提供するBarcelona Supercomputing Centerは、Snowflakeと比較してDatabricksが2.7倍高速で、12倍コストパフォーマンスに優れていることを発見しました。パフォーマンスにおけるこれらの改善は、プロダクションのデータサイズが増加し続け、コストの制御が重要な役割を占める中ではあなたのクラウド消費に多大なるインパクトをもたらします。
例としては、創薬ターゲットの特定を加速しているRegeneronは、自身のデータセットに対するクエリー実行時間を30分から3秒に削減し、600倍の改善を行うことで迅速に洞察を得ています。RegeneronのHead of Genome InformaticsであるJeffrey Reid, Ph.D.は「Databricksプラットフォームによって、我々の統合された創薬プロセスにいる誰でも、物理化学者から計算機を活用する生化学者まで、データに容易にアクセスし、分析することで洞察を抽出できるようになっています」と言っています。
統合されたデータ管理アーキテクチャ
Matt Turckの研究によると、データクラウドプラットフォームの数の増加によって、2023年はCIOは統合されたデータアーキテクチャを構築する必要があります。このデータの全てをオーケストレーションすることは重要であり、CIOの68%が自身の分析とAIのためのデータプラットフォームの統合が重要であると最近の研究結果が示しています。
統合されたデータアーキテクチャがない場合、多くのケースで組織は、データウェアハウス、データレイク、ETL/データエンジニアリング、データストリーミング、ビジネスインテリジェンス(BI)、人工知能(AI)を含むすべてのデータワークロードに対応するために複数の異なるスタックを構築することになります。これらのスタックのそれぞれは、連携しない場合がある、あるいは全く連携しない非常に異なった技術を必要とします。これらの組織は、複雑なシステムアーキテクチャを維持し、ベンダーロックインと進化の遅いプロプライエタリなソリューションに対応することに関する高価なコストに嫌々ながらも気づいています。
このようなデータサイロと関連するインフラストラクチャを長期間にわたって維持、補修することは、今では付加価値や強豪優位性を産まない不要なオーバーヘッドと考えられています。単一のテクノロジービジョンとアーキテクチャを導入することは、現在では必須のことです。
最近のデータ管理に関するポッドキャストで、PETRONAS GlobalのGroup DigitalにおけるHead of Enterprise DataであるHabsah Nordinはこれに同意しています。「これがEDH(エンタープライズデータハブ)で構築する技術スタックの一つとしてDatabricksを選定した理由です。これによって、全てのアプリケーションやデータプラットフォームに存在する異なるデータセットにデータを取り込み、接続することが可能になりました。」
リスク管理
データリーダーは自分たちのデータモデルを内部、外部からも信頼できるようにしようと考えているので、リスク、ガバナンス、コンプライアンスとセキュリティは根本的なデータの課題となっています。品質の悪いデータは、不正確な分析、貧弱な意思決定、コストのオーバーヘッドやネガティブなインパクトを引き起こします。貧弱なデータ品質は企業に対して毎年平均12.9Mドルのコストを生じさせるとGartnerは推定しています。高価的なデータガバナンス戦略には、結果に信頼を置けるように、データの出自を理解でき、データにルールを強制でき、変更を追跡できるようにするためのデータ品質へのフォーカスが含まれるべきです。
データガバナンスは、組織内のデータ資産をセキュアに管理するためのポリシーとプラクティスをカプセル化します。データと分析に対して統合されたアプローチを活用することで、自分たちのリスク管理プラクティスをモダン化する際の最も一般的な課題にデータリーダーが取り組む際に役立ちます。自身のデータが複数のリスク管理ユースケースに関連する際によりアジャイルなアプローチを適用でき、個々のユースケースにビューを狭める制限を受ける必要がなくなります。また、強固なデータガバナンスは、ユーザーが不要に大規模なデータクラスターを起動することを防ぎ、高価なGPUインスタンスの使用に対するガードレールを作成することでコストの最適化にも役立ちます。
飛行機エンジンを製造しているRolls-Royceでは、ガバナンスは内外に対するものです。Rolls-RoyceのChief Information and Digital OfficerであるStuart Hughesは「Rolls-Royceで適用するガバナンスは、おそらく私が小規模なアジャイルスタートアップにいた時には想像もできなかったほど高度なものです」と述べています。
「全てのデータがどこからやってきて、どのように使用されており、どこに配置されるのかに関するリネージを理解するために、データパスポートプロセスを確立しました。これによって、エンジン、顧客、既存のデータセットから生成されたデータからRolls-Royceに到着する全てのデータは、我々によってレビューされた非常に一貫性のあるプロセスを通過することになります。」
データドリブンのITリーダーは、データの鮮度、完全性、制度にフォーカスする必要があります。監査、保持、リネージを含むガバナンス機能は、特に最近のプライバシー規制によって非常に重要なものとなっています。
まとめ
CIOは、自身の組織のIT戦略を高価的にリードするために、デジタルトランスフォーメーション、クラウドコンピューティング、ガバナス、データ管理、分析の最新のトレンドに精通する必要があります。これらの取り組みに追従し続け、新年に優先度付けを行うことで、CIOは自分の組織が曲がり道に備えられるように支援し、破壊が進む世界で競争優位性を維持することができます。
テクノロジーエグゼクティブが、データ、分析、AIを用いてどのように自身の組織を変換、スケールさせているのかに関しては、こちらをご覧ください。
Databricks 無料トライアル
-
How CIOs Can Optimize IT Costs - Gartner ↩