How DuPont achieved 11x latency reduction and 4x cost reduction with Photon - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書はDatabricksとDuPontの共著です。DuPontのBasant Aggarwal (Lead Enterprise Architect)、Romain Fardel (Senior Data Scientist)、John Cannarella (Data Science Leader) に感謝の意を表します。
Databricksは、最近DuPontと働く機会に恵まれ、134の世界中の製造拠点の製造で板にタイムリーに洞察を提供するために取り組みました。DatabricksのPhotonエンジンによって、彼らはTCOを4倍、レーテンシーを11倍削減し、記録的なスピードで重要なソリューションをプロダクションに移行しました。
ビジネス課題
DuPontはデラウェア、ウィルミントンを拠点とする多業種企業です。彼らは、テクノロジーをベースとした素材、ソリューション、専門性を持つグローバルのイノベーションリーダーです。DuPontは電気、水、防衛、業界技術、次世代自動車を含む数多くの重要かつ成長しているグローバル市場にサービス、製品を提供しています。
シニアビジネスリーダーたちは毎日、製造データを活用しており、数百人のアナリストがそれぞれの製造注文にドリルダウンするためにデータを参照しています。データには信頼できる唯一の情報源が存在せず、大規模で脆弱なものでした。スプレッドシートを用いてキーとなるビジネス上の意志決定を行なっていました。さらに物事をややこしくしていたのは、ソースシステムの更新が4amですが、レポートを6amまでに準備する必要があったということでした。
共通のKPIに基づいて、オペレーションにまたがるキーとなるステークホルダー、サプライチェーン、財務情報をアラインしようとすることは、多くのサイトに数多くの苦痛をもたらしていました。
開発プロセス
このワークフローを近代化するために、DuPontは2022/5からAzure Databricksを使い始めました。約120のDelta Lakeテーブルはjoinされ、世界中の関連会社からのデータの集約をお行い、100Mレコード以上を生成しています。DuPontは最初はDatabricksランタイム(DBR)を用いて開発を開始しました。短い期間で開発をスタートし、POCに取り組むことができました。以下に彼らが用いたアーキテクチャを示します。
しかし、POCを成功裡に終了した後で、彼らは開発時によく直面するうんざりする様な疑問に直面しました。最適化すべきか否か?です。チームはタイトなタイムライン(ASAP)にあり、このジョブは非常に高コストであり、5.5時間という処理時間は現在のSLAに合致するものはありませんでした。DuPontの開発チームは最近になってアカウントチームからPhotonについて学びました。低コストで超高速クエリーパフォーマンスを提供するDatabricksレイクハウスプラットフォームの次世代エンジンです。
データサイエンティストのRomain Fardelはこう述べています。「Photonを試してみることにしました。コードはどこも変更せず、単にランタイムとしてPhotonを選択するだけでした。」
結果
コードを変更することなしにPhotonを活用することで、チームは驚異的な幾つな結果を実現することができました。彼らはTCOを4倍、レーテンシーを11倍削減しました。
Databricksランタイム | 処理時間 | コスト |
---|---|---|
DBR 11.1 | 5.5時間 | $256 |
Photon | 25分 | $65 |
この結果を見て、DuPontのLead ArchitectであるBasant Aggarwalはこう述べています。「Photonは我々のパイプラインを最適化しました。計算的に効率的なアプローチを取り、ASAPで何かしらをプロダクションに移行することができました。これまでにない様なスピードでイテレーションでき、チューニングの心配をする必要がありません。」これによって、DuPontチームは非常にクイックに重要なプロダクション候補を手に入れることができました。
「レイクハウスにこのデータセットを格納することで、ニアリアルタイムでアナリストのオペレーションのイテレーションができる様になりました。我々の工数の大部分は共通KPI上でオペレーションにまたがるキーとなるステークホルダー、サプライチェーン、財務情報をアラインすることに費やされていたので、おそらくこれが主要な価値の源泉となっています。」– John Cannarella, a Data Science Leader at DuPont
DuPontに関して
DuPontは、日々の生活と業界を変革させることを支援するテクノロジーベースのマテリアルとソリューションを持つグローバルイノベーションリーダーです。我々の従業員は広範なデータサイエンスと専門性を適用し、顧客が自身のベストなアイデアで前進し、電気、交通、建設、水、ヘルスケア、従業員ノアゼンを含む主要マーケットにおいて重要なイノベーションを提供しています。企業に関する詳細、ビジネス、ソリューションに関しては、www.dupont.comあるいはLinkedInページで参照することができます。
Photonに関して
Photonは、低コストで超高速クエリーパフォーマンスを提供するDatabricksレイクハウスプラットフォームの次世代エンジンです。これには、データレイク上での直接のデータ取り込み、ETL、ストリーミング、データサイエンスやインタラクティブなクエリーが含まれます。PhotonはApache Spark™ APIと互換性があり、オンにして使い時始めることは非常に簡単です。コードの変更は不要でロックインはありません。
DatabricksのPhotonの詳細に関しては、Photonのホームページをチェックしてみてください。