The Impact of Data and AI on a Modern Business - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
過去10年間においてデータの爆発があったことは秘密でもなんでもありません。Forbesによると、2010年から2020年までに世界で作成、キャプチャ、コピー、消費されたデータの量は1.2兆Gバイトから59兆Gバイトになっており、約5000%の成長となっております。
The World Economic Forumは、2025年までには世界中で一日あたり463エクサバイトのデータが生成されるということを推定しています!これを文脈に当てはめると、毎日:
- 2940億のメールが送信され
- それぞれのコネクテッドカーから4テラバイトのデータが生成され
- WhatsAppで650億のメッセージが送信され
- 50億の検索が行われます。
はい、ここでの疑問は、異なる種類(構造化、準構造化、非構造化データ)、速度(データ処理のスピード)、ボリューム(データ量)で生成されるデータでビジネスがどのように利益を生み出せるのか?ということです。良いニュースは、Google、Meta、Amazonのようなトップデジタル企業はデータとAIを主軸としたビジネスを構築できているということです。研究では、洞察ドリブンの企業は24倍顧客を稼得しやすく、19倍利益を得やすく、GDPよりも7倍早い成長を体験するということが示されています。
ビジネスの取り組みにおける課題
今ではこれまで以上に、CEOは利益を最大化し、オペレーションのコストを削減し、ステークホルダーに配当金を支払うことにフォーカスしています。ビジネスラインのリーダーは、収益拡大、カスタマー体験の改善、オペレーションの効率化、人力依存の作業の自動化、製品・サービスの改善のような複数の取り組みを行っています。これらのビジネス目標をサポートするために、企業はビジネスの意思決定や成果を予測するために、データとAIに大きく依存するようになっています。しかし、データを効果的に活用することは簡単ではありません:
IBMは貧弱なデータ品質によってアメリカにおける経済で最大3.1兆ドルのコストが年間生じることを発見しました。 | |
Forresterのレポートでは、企業の全データの73%が分析に使用されていないと報告しています。 | |
Forbesの調査によるとビジネスの95%が、自分たちのビジネスの問題として非構造化データを管理する必要性について言及しています。 |
レガシーなデータプラットフォームを大幅に変更することなしに、期待するビジネス成果を達成することは非常に困難です。レガシーなデータアーキテクチャは、ビジネスの取り組みをサポートするために複数のベンダーのデータプロダクトを繋ぎ合わせており、最終的には以下の理由で失敗します:
- 複雑なアーキテクチャ: 複数製品のアプローチのため、複数のベンダーのプロプライエタリなコードを理解する必要があり、チームの生産性と市場投入のスピードを阻害します。
- 高いレーテンシー: データの種類、速度、ボリュームのため、ビジネスの意思決定をリアルタイムに行わなくてはなりませんが、レガシーなデータプラットフォームでこれを達成することは非常に困難です。
- 高いTCO: 複数のベンダーのデータプラットフォームやリソースを保有し、データプラットフォームを管理することでオペレーションのコストが増大します。
- データのサイロ化: 開発プロセスを遅らせ、精度の低いMLモデルを生み出し、チームの生産性を減少させます。
なぜDatabricksレイクハウスアーキテクチャなのか?
Databricksレイクハウスプラットフォームは、データウェアハウス、データエンジニアリング、データストリーミング、データアナリティクス、データサイエンスユースケースに対する単一のプラットフォームです。Databricksレイクハウスプラットフォームは、データウェアハウスの信頼性、強力なガバナンス、パフォーマンスと、データレイクのオープン性、柔軟性、機械学習サポートを提供するために、データレイクとデータウェアハウスの長所を組み合わせています。Databricksレイクハウスプラットフォームとは:
シンプル: 統合的なアプローチによって、これまではアナリティクス、BI、データサイエンス、機械学習ユースケースを分断していたデータのサイロを排除することで、皆様のデータアーキテクチャをシンプルにします。 | |
オープン: 我々の創始者は、Apache Spark、MLflow、Delta Lakeのようなオープンソースプラットフォームのオリジナルクリエーターです。Delta Lakeはデータレイクのデータに信頼性と世界記録のパフォーマンスを直接提供することで、レイクハウスのオープンな基盤を形成します。 | |
マルチクラウド: Databricksレイクハウスプラットフォームはすべてのクラウドに対して一貫性のある管理、セキュリティ、ガバナンス体験を提供します。 |
ビジネス取り組みにおけるDatabricksのインパクト
Forresterによると、「現在の過当競争の環境においては、製品や顧客体験の差別化を図るためにはいかなる機会においても、データ、ビジネスアナリティクス、機械学習を組み合わせて適用することが、急速に成功の前提条件となっている」とのことです。このため、企業がデータアナリティクスとAIに多大なる投資をしていることは不思議なことではありません。実際、Fortune 1000企業の65%のCIOが、2020のデータとAIプロジェクトに5000万ドル以上を投資することを計画しています。
DatabricksはForresterにコンサルティング調査 The Total Economic Impact™ (TEI) of the Databricks Unified Data Analytics Platform を依頼しました。この調査では、Forresterはデータチームと全体のビジネスがデータエンジニアリング、機械学習、ビッグデータアナリティクスの統合かつオープンなプラットフォームを持っている際、どれだけ迅速に行動し、よりコラボレーションでき、より効率的にオペレーションできるのかを検証しました。Forresterは顧客インタビューを通じて、Databricksをデプロイした企業は3年間で約2900万ドルの経済的な利益と417%のROIを達成していることを知りました。また、彼らはDatabricksプラットフォームのコストは6ヶ月以内に回収できるとも結論づけました。
まとめ
このような技術の進歩によって、企業はこれまで以上に膨大な種類、量のデータを生成することが予想されます。このため、オペレーションのコストを削減し、新たな製品、サービスを創出するためにデータとAIの取り組みから利益を得ることが企業にとって重要となっています。これらの取り組みを達成するには、企業はビッグデータやAIのテクノロジーを導入する必要があります。テクノロジープラットフォームは、AIモデルをトレーニング、再トレーニング、サービングするために、膨大な量のデータをクレンジング、変換、格納できるようにスケールできるものであるべきです。
ビッグデータやAIの必要性を感じているのであれば、皆様とコラボレーションできることを非常に楽しみにしていますので、ぜひコンタクトしてください。