Data Engineering and GenAI: The Tools Practitioners Need | Databricks Blogの翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
最近のMIT Tech Reviewのレポートでは、調査対象の企業の71%では、自身の生成AIモデルを構築しようとしているということが示されています。多くの企業では、彼ら自身の独自データをそれらのモデルで活用できるようにする取り組む際に、同様の困難な事実に直面しています: 世界におけるベストな生成AIモデルは、優れたデータなしには成功しないということです。
この現実は、膨大なデータを効率的に取り込む、あるいはストリーミングでき、高いデータ品質を保証する高信頼のデータイプラインの構築の重要性を強調しています。言い換えると、優れたデータエンジニアリングは、すべてのデータとAIに関する取り組み、特に生成AIにおいては重要なコンポーネントであるということです。
コアとなる機能
データエンジニアにとっては、取り組みは3つの主要なタスクにまたがることになります:
- 取り込み: 様々なソースからのデータ取得 - オンプレミスやクラウドストレージサービス、データベース、アプリケーションなど様々なものを一箇所に。
- 変換処理: フィルタリング、標準化、クレンジング、集計処理を通じて生データを使える資産に。多くの場合、企業は処理の様々なステージを定義するためにメダリオンアーキテクチャ(ブロンズ、シルバー、ゴールド)を使うことでしょう。
- オーケストレーション: 取り込みや変換処理のスケジューリングや監視の処理、データパイプライン開発の他のパーツの監視や障害対応。
AIへのシフト
AIに焦点が当たるようになって、これらの機能おいて以下のような新たな課題が生じています:
- リアルタイムデータへの対応: 多くの企業では情報を即座に処理する必要があります。これは、機械の健康状況を最適するためにAIを活用する製造業者や、不正な行動を止めようとする銀行や、お客様にパーソナライズされた提案をしたい小売業者であるかもしれません。これらのリアルタイムデータストリームの成長によって、データエンジニアによって対応する必要がある新たな資産が出現してきました。
- データパイプラインのスケーリング: データパイプラインが増加することでビジネスにおけるコストが増加します。障害が発生した際の監視やトラブルシュートに対する効果的な戦略なしには、内部チームはコスト低減とパフォーマンス改善に苦慮することになるでしょう。
- データ品質の保証: モデルに入力されるデータの品質は、出力の品質を決定することになります。企業においては、さらなるAIシステムを現実世界に提供するために必要とされる最終的なパフォーマンスを提供するために、高品質なデータセットが必要となります。
- ガバナンスとセキュリティ: 我々は毎日お客様から以下のようなことを聞いています: データはどこにでもある。そして、内部のチームは自分たちのユニークなプロセスのために、自分たちのビジネスに存在しているプロプライエタリなシステムにロックインされている情報を活用したいという要望が高まっている。これは、成長し続けているデータ領域を統合し、従業員がそれらの資産にアクセスできるようにするたために、ITリーダーへの新たな圧力を付け加えることになりました。
プラットフォームのアプローチ
これらの広範かつ成長し続ける課題に対応できるようにするために、我々はデータインテリジェンスプラットフォームを構築しました。エンジニアリングチームにおける最も重要な機能には以下があります:
- Delta Lake: 非構造化データであろうが構造化であろうが。オープンソースストレージフォーマットは、企業でとりこうもとしている情報の種類がもはや問題でないことを意味しています。Delta Lakeによって、企業によるデータ品質の改善の助けとなり、外部のパートナーとの容易でセキュアな共有が可能になります。そして、HudiやIcebergの壁を打ち壊すDelta Lake UniFormによって、企業は自身の資産に対する緊密な制御を維持することができます。
- Delta Live Tables: エンジニアリングチームを支援するパワフルなETLフレームワークは、コストを削減するためにPythonとSQLの両方におけるストリーミングとバッチのワークロードの両方をシンプルにします。
- Databricksワークフロー: エンジニアリングチームに強化されたフロー制御の能力、ワークフローの実行を監視、可視化する高度な観測可能性、スマートなスケーリングと効率的なタスク実行のためのサーバレスコンピュートを提供するデータとAIのためのシンプルかつ信頼できるオーケストレーションソリューションです。
- Unity Catalog: Unity Catalogによって、データエンジニアリングとガバナンスチームは、権限管理、中央管理の監査、カラムレベルまでのデータリネージの自動追跡、プラットフォーム、クラウド、リージョン横断のデータ共有に対する単一のインタフェースによる企業横断のデータカタログのメリットを享受することができます。
どのようにしてあなたの企業のエンジニアリングチームを、AI時代における要件に適応させるのかを学ぶには、「Big Book of Data Engineering」をチェックしてください。