本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
世界はリアルタイムで動いています
現在のハイペースな世界においてリアルタイムの意思決定を行える能力はこれまで以上に重要となっています。現代の企業は、リアルタイムの洞察を得て情報に基づく意思決定を行うために、即座にイベントに対応し、データにクイックにアクセスし分析を行う必要があります。さまざまなユースケースに対するリアルタイムの意思決定を行うプロセスをシンプルにすることで、最終的にはイノベーションを加速し、コストを削減し、顧客体験を大きく改善します。
過去数年間において、我々はあらゆる個人や機械、組織によって定常的に生成されるリアルタイムのデータの爆発を目撃しています。リアルタイムデータはどこにでもあります:運用システムにおけるビジネストランザクション、顧客やパートナーとのやり取り、クラウド上のサードパーティデータサービス、センサーやデバイスによって生成されるIoTデータなどです。
これらすべてのリアルタイムデータは、不正検知、パーソナライズされた顧客へのオファー、ワクチンの分配、スマートプライシング、ゲーム内分析、予兆保全、コンテンツのレコメンデーション、コネクテッドカーのような革新的なアプリケーションを構築する新たな機会を生み出しています。
データストリーミングがキーとなります
データストリーミングは、ニアリアルタイムで処理、分析を行うためにさまざまなソースからディスティネーションに連続的かつインクリメンタルに流れるデータです。これは、最終的には迅速な意思決定を可能とする、リアルタイムETL、リアルタイム分析、リアルタイムオペレーショナルアプリケーションに関するユースケースの新たな世界を解放します。リアルタイムデータのパワーを活用するために、企業は複数のユースケースにおけるデータストリーミングを幅広く導入し、自身のマーケットにおける差別化要素をブーストする技術の導入をシンプルにする必要があります。
しかし、多くのプラットフォームはすべてのユースケースに対して、統合され簡素化されたストリーミングのアプローチを提供していません。IDCによると、企業の25%以下のみが企業全体でデータストリーミングを導入しているに過ぎません。多くの企業は、ワンオフのデータパイプラインを活用するユースケースのみをどうにか実装しているに過ぎず、データストリーミングを例外的なものではなく標準的なものにすることに苦戦しています。これはなぜなのでしょうか?
データストリーミング導入の課題
実際のところ、多くの企業においてデータストリーミングは非常に困難なものです。これにはいくつかの理由があります:
- 特殊なAPIと言語スキル: 新たな言語、API、ツールを学ぶ必要があるため、データ実践者はストリーミングのスキルセットを学ぶ際に障壁に遭遇します。
- オペレーションの複雑性: 大規模なデータストリーミングを実装するには、データチームはストリーミング固有のツールとクラウドサービスをインテグレーションし、管理しなくてはなりません。また、彼らはこれらのシステムを手動で障害から復旧させ、処理の重複なしにワークロードを再起動し、パフォーマンスを最適化し、背後のインフラストラクチャをスケールさせる必要があります。
- 互換性のないガバナンスモデル: リアルタイムデータと履歴データに対して異なるガバナンス、セキュリティモデルは、適切なユーザーに適切なアクセスを提供することや、エンドツーエンドのリネージを参照することや、コンプライアンス要件を満たすことを困難にします。
Databricksレイクハウスプラットフォームはどのようにデータストリーミングをシンプルにするのか
Databricksレイクハウスプラットフォームは、データストリーミングを信じられないほどシンプルにすることでこれらの課題を解決します。すべての企業は、一つのプラットフォーム上でリアルタイムの分析、機械学習、アプリケーションを実現できます。これには3つの主な理由があります:
- すべてのチームをサポートします: Databricksを用いることで、データエンジニア、データサイエンティスト、アナリストは、自分たちがすでに知っている言語やツール、すでに使用しているAPIを用いて容易にストリーミングデータワークロードを構築できます。
- 開発とオペレーションをシンプルにします: Databricksは、リアルタイムデータパイプラインの構築、維持に関連する多くのプロダクション作業を自動化するすぐに活用できる機能を提供します。
- ストリーミングとバッチデータの統合プラットフォームを提供します: Databricksはデータサイロを排除し、クラウド全体におけるすべてのユースケースに対するセキュリティ、ガバナンスモデルを集中管理するお役に立ちます。
世界中のエンタープライズからスタートアップに至る我々のお客様の多くは、Databricksを愛しており、信じています。レイクハウスアーキテクチャによって素晴らしいソリューションを構築し、ビジネスインパクトをもたらしているあらゆる業界のお客様が世界中に9000社以上います。データストリーミングに関しては、AT&T、Walgreens、Columbia Sportswear、Edmunds、US Department of Transportation、Akamai、Kythera Labsなどがレイクハウスに移行することで、素晴らしい成功を収めています。
Databricksレイクハウスプラットフォームは多くの企業から望まれる選択肢となっています。なぜお客様がDatabricksにおけるデータストリーミングを愛しているのかについては、大きく3つの理由があります。
1. ストリーミングパイプラインとアプリケーションを迅速に構築する能力
Databricksレイクハウスプラットフォームは、皆様のデータチームにおけるデータストリーミングの能力を解放し、皆様がこれまで以上に迅速にストリーミングデータパイプラインやリアルタイムアプリケーションを構築できるようにします。
アナリスト、分析エンジニア、データサイエンティスト、データエンジニアは、SQLやPythonのようにすでに慣れ親しんでいるツールや言語を用いて容易にストリーミングパイプラインを構築でき、新たな言語やAPI、特殊なストリーミング技術を学ぶ必要がありません。
Delta Live Tables(DLT)はSQLアナリストをデータエンジニアに変身させます。SQL言語に対するシンプルなセマンティックの拡張によって、すぐにストリーミングデータを操作できるようになります。例えば、Delta Live Tablesを用いることで、実践者はストリーミングパイプラインを作成するために、シンプルなCREATE TABLE文にキーワードstreaming
を追加することができます。ETLロジックを低レベル言語でハードコードするのではなく、データエンジニアは宣言型のパイプラインを構築でき、どのように
するのかではなく、何を
するのかを容易に定義できます。DLTは自動でパイプラインのすべての依存関係を管理します。これによって、すべてのテーブルが連続的あるいはスケジュールに基づいて適切に作成されます。
DLTとSpark構造化ストリーミングの両方は、データエンジニアや開発者が既存のコードの最小限の変更でリアルタイムアプリケーションを構築し、新たなツールやIDEを学ぶことなしに、使用しているのと同じノートブックやSQLエディターを使い続けられるように、ストリーミングとバッチワークロードに対する統合APIを提供しています。
テクノロジー、ソフトウェア業界においては、Statsigがそれぞれの製品のアップデートやローンチに対するエンドツーエンドの可視性を提供することで開発者がより良い意思決定をできるように支援しています。Databricksを用いることで、Statsigはより高速にデータをストリーミングすることができ、データ取り込みを高速にし、より早くジョブを開始し、時間通りにジョブを完了できるようになっています。Statsigのデータパイプラインは、一日あたり100兆以上のイベントを取り込んでいます。このシステムはデータを管理、保護するための業界標準の最高のコンプライアンスの認証を受けており、ビルトインされている冗長性を用いて、これらの100兆以上のユーザーインタラクションのイベントを99.9%の可用性で提供しています。
「Databricksレイクハウスプラットフォームを用いることで、実際のストリーミング機構は抽象化されました...これによって、ストリーミングの導入が非常にシンプルになりました。」— Pablo Beltran, Software Engineer, Statsig
2. 自動化ツールによって簡素化されるオペレーション
迅速にコードを開発することにはメリットがありますが、その後でコードをプロダクション環境に移行しなくてはなりません。お客様は度々我々に、彼らが自身のストリーミングデータパイプラインに関するオペレーションをサポートするためのコードを記述、メンテナンスすることに膨大な時間を費やしていると言ってきます。実際、これは工数全体の大部分を占めています。Databricksを用いることで、すぐに利用できる自動化機能を通じて、オペレーションツールの構築、運用の負荷を劇的に削減することができます。
Delta Live Tablesのような製品は、障害からの自動復旧、背後の計算インフラストラクチャのオートスケーリング、パフォーマンスの最適化などを有するストリーミングデータパイプラインの構築に関する複雑かつ時間を浪費する作業を自動化します。
また、お使いのデータパイプラインのすべての側面における健康状態とパフォーマンスを理解するために、完全に包括的なモニタリングと、リアルタイムで自動テストを行い、データ品質を維持するルールを設定する能力を手に入れることができます。データ品質や一貫性コントロールを定義することができ、不正データの警告、削除、検疫やパイプラインの停止のような柔軟性のあるポリシーでデータ品質のエラーに対応することができます。
プロダクション環境に影響を及ぼすことなしに、早期に問題を補足するためのデータパイプラインの開発やテストは非常に困難です。データエンジニアリング & アナリストチームには、コードを開発、テストするためのCI/CDとして知られるソフトウェアのベストプラクティスを実装するツールがありません。
製造業においては、Honeywell's Energy and Environmental Solutions divisionが、世界中のビジネス部門がエネルギー需要を管理し、エネルギー消費や二酸化炭素排出量を削減し、屋内の空気の品質を最適化し、住人の住環境を改善することを支援するために、IoTセンサーやその他の技術を活用しています。DatabrikcsレイクハウスプラットフォームでDelta Live Tablesを活用することで、Honeywellは数十億行のセンサーデータをDelta Lakeに取り込み、自動でリアルタイムクエリーと大規模データに対する多層の洞察のためのSQLエンドポイントを構築しています。これによって、Honeywellはデータの管理方法を改善し、データから顧客と自分自身にとってのさらなる価値を抽出しています。
「Databricksによって、さまざまなデータソースを結びつけて集計を行い、ビルから収集する膨大な量のデータを制御下に置くことで、顧客に価値を提供できています。」— Dr. Chris Inkpen, Global Solutions Architect, Honeywell Energy and Environmental Solutions
3. リアルタイムデータ、履歴データに対して統合されたガバナンス
通常、リアルタイムデータはApache Kafkaのようなメッセージキューやpub/subシステムに存在し、データウェアハウスにある履歴データとは分離されています。これによって、企業全体におけるすべてのデータへのアクセスを管理しようとするデータエンジニアやデータ管理者にとってのガバナンス上の課題を引き起こします。
Unity Catalogは、一つの場所でリアルタイムデータと履歴データの両方に対する単一のデータガバナンスモデルを提供することでこの問題を解決します。Unity Catalogによって、すべてのクラウドにおけるすべてのデータに対するアクセスと監査を統合することができます。また、業界初のオープンなデータ共有プロトコルによって、皆様のすべてのビジネスライン、さらには世界中の外部組織とセキュアにデータを共有、コラボレーションすることができます。
そして、迅速な洞察のための完全な可視性を提供することで、Unity Catalogのデータは組織の誰でも発見可能であり、すべてのリアルタイムユースケースでどのように使用され、変換されたのかを含み、インパクト分析のためにどのようなデータが流れるのかに関する可視性を提供する包括的なリネージを自動で提供します。
テクノロジーやソフトウェア領域において、Grammarlyの信頼されたAIによるコミュニケーションアシスタントは、個人やチームがより自信を持って文を書けるようにするリアルタイムの提案を行います。Databricksレイクハウスプラットフォームに移行することで、Grammarlyは世界中の3000万人の人々、50,000チームが日々より効率的に文を書けるように支援する柔軟かつスケーラブル、高度にセキュアな分析プラットフォームを維持することが可能となっています。レイクハウスアーキテクチャを用いることで、Grammarlyのデータアナリストは、分析に対する統合インタフェースを活用することができます。アクセスコントロールを管理し、エンドツーエンドの可視性とデータ品質のモニタリングを有効化するために、GrammarlyはUnity Catalogのリネージ機能を活用しています。データを単一の統一されたプラットフォームに統合することで、Grammarlyはデータサイロを排除しました。
「Databricksを用いた同じプラットフォームでデータ処理や分析の機能をまとめ上げる能力によって、非常に価値があるものとなりました。同じ傘の元でETLからエンジニアリング、分析、MLのすべてを行うことで障壁を取り除き、誰でもデータを容易に操作でき、コラボレーションできるようになりました。」— Sergey Blanket, Head of Business Intelligence at Grammarly
レイクハウスでデータストリミーングを始める
Databricksレイクハウスプラットフォームは、一つのプラットフォーム上でリアルタイムの分析、機械学習、アプリケーションを提供するためのデータストリーミングを劇的にシンプルにします。なぜDatabricksのお客様がレイクハウスにおけるデータストリーミングを愛しているのかという主要な3つの理由は、ストリーミングパイプラインやアプリケーションを迅速に構築できる能力、自動化ツールによって簡素化されたオペレーション、リアルタイムデータと履歴データに対する統合ガバナンスです。
組織におけるデータストリーミングの民主化を探しており、ご自身のリアルタイム意思決定をすべてのユースケースにおいて次のレベルに持っていきたいと考えているのであれば、レイクハウスにおけるデータストリーミングをチェックしてみてください。
レイクハウスにおけるリアルタイムの分析、ML、アプリケーションをサポートするモダンなデータパイプラインの構築、実行方法を説明するセッションやデモ、ベストプラクティス、サクセスストーリーを参照したいのであれば、Data Engineering and Data Streaming virtual eventをご覧ください。