Finding a Data Platform that Can Do More, With Less - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
現在の経済状況におけるキーフレーズは「より少ないリソースでより多くのことを」です。より少ないリソースでより多くのことをということは、インフラストラクチャのコストを削減するということだけではなく、複数のシステムを管理、維持するのに費やす時間を削減することも意味します。Azure Databricksを用いることで、皆様のビジネスにおいて即座にデータからインパクトを与える洞察を提供しつつも、コストと複雑性を削減することができます。我々は多くのお客様を支援してきています。我々がどのようにOptum Healthが分あたり百万の保険の主訴を処理できるようにし、数百万の潜在的な利益損失を防ぐのを手助けしたのかをご覧ください。より少ないリソースで少ないことをするのはやめましょう。より少ないリソースでより多くのことを行いましょう。
現在ご使用のデータプラットフォームにおけるリアルタイム分析の複雑性、遅いクエリー性能、チューニング、メンテナンス、ワークロード管理のようなタスクに必要とされる手動の作業にフラストレーションを感じているのであれば、この記事はあなたのためのものです。
より少ない複雑性でよりリアルタイムな意思決定を
過去数年間でストリーミングデータの速度は指数関数的に増加しました。オンライン注文データ、アプリケーションのテレメトリー、IoTデータに至るまで、これまで以上にお客様とご自身のビジネスを理解する様々な手段が存在しています。リアルタイムのビジネス意思決定を行うために、この新たなデータソースと数年に渡る履歴データを組み合わせられるとしたら素晴らしいことだと思いませんか?
これを実現するためには通常、ストリーミングデータの取り込みや処理、履歴データとの結合、BIアプリケーションへの提供のための複数のツールのセットアップと管理が必要となります。
Azure Databricksレイクハウスプラットフォームを用いることで、ストリーミングデータと履歴データの取り込み、処理し、結合し、提供をすべて馴染みのあるANSI SQLで行うことができる単一のツールを手に入れることができます。Delta Live Tablesを用いることで、同じコードで堅牢なパイプラインを構築し、バッチ処理からストリーム処理に移行することができるので、お手元のテーブルは数秒で最新の状態になります。そして、Azure Databricks SQLを用いることで、皆様のビジネスチームがリアルタイムの意思決定を行うためにこのライブデータに対する問い合わせを行ったり、リアルタイムダッシュボードのためにPower BIのようなBIツールを直接接続することができます。Columbia Sportswearがデータ処理時間を4時間から5分に短縮することで、自身のオペレーションでリアルタイムの意思決定を行うためにどのようにAzure Databricksを活用しているのかをご覧ください。
より少ないコストで優れたパフォーマンスを
多くのデータウェアハウスは大部分の厳しいワークロードに対応するためにスケールアップすることができますが、それらすべては、皆様に対して多大なるコストなしにスケールするように設計されているわけではありません。スケールしないデータウェアハウスは、データアナリストがクエリーが終了するまでに数時間待たなくてはならず、BIレポートが使い物にならないことを意味します。
Azure Databricks SQLはパフォーマンスを念頭に設計されており、クエリーは非常に高速で、BIレポートはスムーズに動作し、CFOから電話が掛かってくることなしにもっとも厳しいワークロードに対応できることを意味します。非常に高性能なPhotonエンジンやキャッシュやデータスキッピングのような機能によって、Databricks SQLは業界標準のベンチマークであるTPC-DS 100 TBの世界記録を打ち立てました。Azure Databricks SQLは、高い同時実行性、低レーテンシーに対応できるように設計されており、上述の通り先進的なクラウドデータウェアハウスを打ち負かしています。
データの複数コピーを作成することはコストが高くつきます。レガシーなデータウェアハウスプラットフォームでは、計算資源とストレージは密接に結合されており、皆様のデータはプロプライエタリなフォーマットにロックインされ、データレイクからデータウェアハウスにデータをロードするために追加のコストを引き起こします。Azure Databricksを用いることで、データをロックされることやデータのコピーによる追加費用を引き起こすことなしにウェアハウスレベルの性能を手に入れるために、オープンソースのDelta Lakeストレージフォーマットを用いてデータレイクのすべてのデータを保持することができます。
また、真の計算資源とストレージの分離によってマルチクラスターアーキテクチャを手に入れることができます。これは、一般的なボトルネックであるリソース競合を排除するためにETLとBIワークロードを分離することができ、必要な計算資源に対してのみ支払いを行い、24/7稼働し続けるような過度に配備されたウェアハウスを排除することができることを意味します。
より少ないオーバーヘッドでより迅速に市場投入を
優れたデータプラットフォームは、皆様のチームが管理やDevOpsに多大な時間を費やすのではなく、新たなデータ製品の構築にフォーカスできるようにすべきです。
しかし、多くのデータプラットフォームではシステムのオフラインから起動、シャットダウン、スケーリング、さらにはテーブルの名前変更のようなシンプルなことにおいてさえテーブルのロックが必要となります。これらは多くの場合、キャパシティプランニングや定常的なパフォーマンス監視やチューニング、手動でのワークロード管理を必要とします。
Azure Databricks SQLを用いることで、パフォーマンスに妥協することなしに完全なサーバレスのウェアハウスを手に入れることができ、クラスターの起動に10-15分待つのではなく、即座に計算資源にアクセスできることを意味します。また、ビジネスにおける無制限の同時実行性の要件に応えるために、即座に水平にオートスケールすることができ、ウェアハウスが使用されていない場合には自動でシャットダウンすることができます。
Azure Databricks SQLサーバレスはパブリックプレビューで利用でき、皆様のワークロード履歴を学習するためにAIを活用しているインテリジェントワークロード管理と共に提供されます。即座に実行するために新たなクエリーの優先度を高めるか、実行中のクエリーに干渉しないようにスケールアップするかを決定するために、この履歴を活用します。これによって、混成クエリーのワークロードにおいて平均3倍のレーテンシー削減を実現しています。即時の計算資源へのアクセス、自動スケーリング、ワークロード管理、そして高速なパフォーマンスは、皆様のデータアナリストたちがより俊敏になり、より迅速に洞察を提供できるようになることを意味します。Canadian Broadcasting Corporationにおいては、Databricks SQLに移行することで、洞察に到達する時間を50%削減することができました。
「より少ないリソースでより多くのことを」とは、システムをオフにしたりプロジェクトを中止することを意味する訳ではありません。逆に、Azure Databricksを用いることで、低コストでデータに対するリアルタイムの洞察を提供し、皆様のデータチームがお客様に対してより迅速に結果を提供できるのです。
Azure Databricksを用いて、高性能なストリーミングパイプラインやリアルタイムダッシュボードを構築し始めるには、こちらのウォークスルーをチェックしてみてください。