Why Startups Build on Databricks - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
2010年代、クラウドインフラストラクチャはスタートアップの皆様が自身のビジネスを開発し、スケールするスタートアップの時代を現実なものにしました。この10年において、クラウドインフラストラクチャは必須のものとなり、データ、分析、AIを用いたスタートアップの製品の差別化要因となっています。
現在のスタートアップはスケーラブルなデータプラットフォームを構築しなくてはなりません。製品を開発する起業家として、適切なデータプラットフォームの選択は成功と失敗の違いを生むものとなっています。
皆様の製品は、以下のことを可能とするデータプラットフォームを必要とします:
- 一つのプラットフォームですべてのデータ、分析、AIユースケースに対応できる。
- 製品化へのスピードを最大化するために自身のデータインフラストラクチャを完全に管理する。
- コスト効率の高いスケーラビリティとパフォーマンスで製品の成長に備える。
- オープンソースとマルチクラウドでインフラストラクチャの柔軟性を提供する。
Abnormal Security、People.ai、YipitDataのように成功している数多くのスタートアップは、Databricksレイクハウスで製品を開発することで偉大な成功を収めています。それでは、自身のデータプラットフォームの意思決定をドライブしたいくつかの要因を検証していきましょう。
妥協なしのデータ: お使いのすべてのデータ、分析、AI要件の実行
モダンなデータドリブンのアプリケーションには複数のデータタイプとユースケースが関連します。例えば、サイバーセキュリティアプリケーションを開発する際、準構造化データのログを読み込み、処理するためのストリーミングソフトウェアが必要となります。バッチでロードされた構造化データを用いたダッシュボードを表示することになるかもしれません。ほとんどのデータベースは1つか2つのユースケースに特化しています。このことは、製品開発者に対して複数のサイロ化されたデータパイプラインで妥協し、構築することを強要します。
レイクハウスアーキテクチャは、BIとAI、構造化データと非構造化データ、バッチとストリーミングをどちらもうまく取り扱えるように設計されています。歴史的にはデータエンジニアリング、分析、BI、データサイエンス、機械学習を分断し、複雑にしていたデータサイロを排除することでモダンなデータスタックをシンプルにします。
メールセキュリティベンダーのリーダーであるAbnormal Securityは、自身の製品をDatabricksレイクハウスプラットフォームで構築し、様々なユースケースで活用しています。もはやインフラストラクチャが課題ではないので、彼らはS3から直接データを読み込み、ストリーミングとバッチオペレーションの両方においてニアリアルタイムにクエリーすることができるようになっています。データはKinesis FirehoseからDelta Lakeへ流れ込むので、データサイエンティストは即座に脅威のシグナルデータを活用できるようになります。Databricks SQLを用いることで、データサイエンティストは製品に関する意思決定を行い、検知精度を改善するためにリッチなダッシュボードを用いたビジュアライゼーションを作成することができます。
「Databricksレイクハウスによって、お客様に対するすべての形態のメール攻撃を検知、ブロックするという取り組みにおける分析を支援するために、我々の大規模な全データを整理、活用できるようになりました」— Sanny Liao, Head of Data Science at Abnormal Security
製品化のスピード: 皆様のチームがコアアプリケーションにフォーカスさせましょう
スタートアップの創立者との会話を通じて、我々は彼らが同じ最重要事項を共有していることを知りました: 製品化のスピードです。市場への製品投入のスピードを加速させることは、スタートアップが勝利するか敗北するのか、次のマイルストーンまで生き残るのか否かを分けるものとなります。このことを考慮すると開発者の生産性は最も重要なことであると言えます。創立者は開発者を雇用した目的、すなわちコアプロダクトの開発にフォーカスできるようにする必要があります。
多くの開発者は自身の多才さに誇りを持っています。しかし、あなたの最も貴重なリソースをSparkの管理やETLのトラブルシュートに浪費したいと思いますか?合理性のある回答はまず間違いなく「NO」です。
Databricksレイクハウスプラットフォームは、完全マネージドで統治されており、皆様のチームが可能な限りクイックに製品を市場に投入することにフォーカスできるようになります。
レイクハウスで開発することで、People.aiは開発者の生産性を劇的に改善することができました。様々な業界の企業はすべての企業における利益創出に関するアクション可能な洞察を導き出すために、顧客のコンタクト、アクティビティ、エンゲージメントをキャプチャするためにPeople.aiを選択しています。People.aiは、データパイプラインのインフラストラクチャの管理は膨大なDevOpsのオーバーヘッドとなることを知り、Databricksで開発することを選択しました。
Databricksは、Databricksノートブックで構築されるエンドツーエンドのワークフローによってDevOpsに必要とされる時間を削減します。Sparkインフラストラクチャの管理に費やす時間を削減することで、新たなユースケースをシームレスにプロダクションに移行することで、顧客や市場のニーズに対応することにフォーカスできるようになりました。彼らはDatabricksで開発することでDevOpsのコストを20%-30%削減することができました。
「我々は分析インフラストラクチャでパートナーシップを結ぶリーダーを探していました。Databricksによっって、我々のビジネスをドライブする新たなソリューションのイノベーションに時間とリソースを集中できるようになりました」 — John Wulf, Principal Engineer at People.ai
成長に備える: いかなる規模でもコスト効率の高いパフォーマンス
スタートアップの創始者として、成長過程で検討すべき最初の問題として、製品のスケーラビリティを検討することは合理性のあることです。しかし、成長は不確実性を伴い、同時に製品はそれに備えている必要があります。データインフラストラクチャは、大規模においてもコスト効率高く動作しなくてはなりません。
Databricksのレイクハウスプラットフォームは、皆様の急激に成長する製品に合わせてスケールします。競合ソリューションよりも優れたコスト効率性によって、ギガバイトからペタバイトまでいかなる規模にもスケールします。次世代ベクトル化エンジンPhotonによって、レイクハウスは他のクラウドデータウェアハウスと比較して、最大12倍の優れたコストパフォーマンスを提供します。
YipitDataがどのようにスケーラビリティとコスト最適化のためにDatabricksで開発したのかを見ていきましょう。YipitDataは、世界中のヘッジファンドと企業が現実の強豪優位性を獲得する支援をし、顧客に対して優れたサービスを提供します。彼らは毎月数百のウェブサイトからデータを収集する数十億のリクエストを行います。
Databricksを活用することで、YipitDataのデータチームはデータ処理の時間を最大90パーセント削減しました。さらに、AWSのDatabricksに移行することでデータベースの費用を約60%削減しました。
「Databricksによって、データエンジニアリング部門やアナリスト部門においてこれまでにないくらい迅速にイノベーションを起こしており、毎年のデータベース費用が少なくなっています」 — Steve Pulec, CTO at YipitData
オープンソースとマルチクラウドでインフラストラクチャの柔軟性を維持する
最初からデータアーキテクチャに柔軟性を組み込んでおくことは重要です。将来のデータ要件は進化します。変更できないベンダーに製品データをロックインさせないでください。スタートアップが成長すると、まず間違いなく単一のクラウドベンダー以外に拡張し、自身のデータプラットフォームで新たなユースケースをサポートする必要が出てくることでしょう。
Databricksレイクハウスは、完全オープンソースのDelta Lakeプロジェクトをベースとしており、AWS、GCP、Azureのすべてのクラウドプラットフォームで動作します。Databricksで製品を開発するのであれば、常にデータを他のクラウドやデータプラットフォームに移行する選択肢を残すことができます。
皆様のスタートアップ製品をDatabricksレイクハウスで開発しましょう
Databricksレイクハウスプラットフォームは、一つのプラットフォームですべてのデータ、分析、AIのユースケースに対応します。製品化のスピードを加速します。成長に対して製品の準備を行うことができ、長期に渡るインフラストラクチャの柔軟性を提供します。この時代においてはスタートアップは抜きん出るためには自身の製品をデータでイノベートしなくてはなりません。競合に勝ち続けるためには、Databricksレイクハウスプラットフォームでご自身の製品を開発しましょう。Databricksにおけるスタートアップソリューションの詳細に関してはこちらを参照ください。
フリーのクレジット、技術サポート、GTMオプションがあるスタートアッププログラム向けDatabricksでクイックかつ簡単にDatabricksを使い始めましょう。サインアップして使い始めましょう。