はじめに
2024年6月にサンフランシスコで行われた Data + AI Summit 2024 に参加してきました!
現地ではお客様事例を中心に世界最先端の Data & AI に関する事例を直接聞くことができたので皆さんに展開していきます!
南米で最大規模の金融機関の1つであるブラデスコ銀行のデータ駆動型の DX の事例を直接聞けたのでご紹介していきます。
セッションの概要
ブラデスコ銀行はラテンアメリカ最大規模の金融グループで約3000万の口座と8.5万人の従業員を抱える企業です。積極的に AI を活用した顧客体験向上とデータ運用を行い急成長している企業の AI 活用を起点にするためのデータメッシュアーキテクチャについて語られました。
アジェンダ
1. ブラデスコ銀行の取組とは?
デジタルに特化した銀行
ブラデスコ銀行は AI などの先端技術に関するリサーチチームも含むエコシステムを持っている企業です。プロトタイピングを行うためのラボや、スタートアップと協力するための機関も運営しています。
インターネットバンキングや自社アプリなど 98 %もの取引がデジタル経由して行われ、モバイルとインターネットを通じて 94 %もの取引が行われるデジタルに強みを持つ金融機関です。
商業、個人、住宅などの各種ローンや投資などのサービスだけではなく、保険・年金などの金融サービスだけではなく農業ビジネスなどの非常に多岐に及ぶデジタルサービスを提供する会社です。
データ活用に向けた挑戦
データを活用するにあたり以下のチャレンジを行う必要がありました。
コスト - 環境のスケーリングやアップグレードにとにかくコストがかかる
成長 - 事業成長に応じた成長に対して対応することができない
時間 - 新しいワークロードを取り入れるのに 1 - 2 年かかってしまう。
複雑なデータを取り巻く環境
技術環境も複数のプロダクトが混在して非常に複雑なものでした。
複雑な環境は複雑なデータ分析基盤を作り出していたとのことです。この課題の解消のためブラデスコ銀行さんはデータメッシュアーキテクチャへの歩みを始めました。
2. クラウド/データメッシュへの道のり
移行プロセス
わずか2年でデータメッシュアーキテクチャを完成させています!
初期
- デジタルプラットフォームのモダナイゼーション
- 既存のアプリケーションと製品をデジタルプラットフォームに移行し、最新化
- Microsoft との連携
- 2022年9月にコーポレートポータル契約を締結し、12月にランディングゾーンを作成
中間
- 分析基盤の整備
- 2023年8月に分析基盤を刷新し、2500以上のワークロードを稼働
- 新プロジェクトはすべて新分析基盤に
- 2023年9月以降、全てのチームが新しいプロジェクトでは新分析基盤を利用
後期
- データプラットフォームの公式化
- 新しいデータプラットフォームを正式に宣言し、運用を開始しました
- ドメイン指向のデータ管理
- データメッシュアーキテクチャによりデータはトランザクションシステムから分類され、各ドメインの管理化になった
組織構造とデータ管理体制
Unity Catalog を中心としたデータ中心のドメイン分散アーキテクチャ!
組織構造とデータ管理
- ドメインとデータカタログ
- 各ドメインはデータスチュワードを中心に管理され、各ドメインごとにデータカタログが存在
- 協調と自律
- データチームは独立しても協力できるようになり、別チームの仕組みを流用するか新規の開発を柔軟に可能 (別チームでやってる似たものを作る必要がなくなった)
- ドメインの例
- ブラデスコ銀行では、投資・非金融製品・プラットフォーム・CRM などの9つのドメイン分類をしている
メリットと成果
- データを用いた取組の生産性の向上
- データの一元化とガバナンスの強化により、運用の効率が大幅に向上
- 時間とコストの削減
- プラットフォームの標準化によって製品の市場投入までのリードタイムが減少、スタートアップのようなプロダクト開発が金融機関で可能に
- 品質の向上
- データプロダクトの開発サイクルが標準化され、ビジネスとデータのアラインメントが強化
ブラデスコ銀行のクラウド&データメッシュへの移行は企業として非常に重要なステップになり、銀行組織としてのデジタル化を推進する基盤となった。
アーキテクチャ
レイクハウスアーキテクチャ
Databricks を Ingestion Manager を経由し Unity Catalog を起点に活用側に連携されるアーキテクチャが公開されました。
データメッシュアーキテクチャ
こちらが公開されたデータメッシュアーキテクチャです。データメッシュアーキテクチャはデータの管理と利用をドメイン毎に分けて、各ドメインが独立してデータを生成・処理・消費が成立するアーキテクチャです。
各コンポーネントの役割
1. プロデューサー(Producers)
- カスタムアプリケーション、外部アプリケーション、ビジネスパートナー、IoT、その他の統合データソースからデータを生み出す。
2. ビジネスドメイン(Business Domain)
- データカタログによるデータ品質管理を行い、データやメタデータの質を担保する
- データパイプラインを通じてデータを変換および強化し、生データを処理し保存
3. ビジネスユニット(Business Units)
- 各ビジネスドメインは、特定のビジネスユニットと連携し、ドメイン固有のデータニーズに対応
4. コンシューマー(Consumers)※データサイエンティスト/アナリストなど
- 分析フレームワークを使用してデータを活用し、ビジネス価値を引き出す
- カスタムアプリケーション、外部アプリケーション、ビジネスパートナー、および関連企業
5. グローバルデータガバナンス(Global Data Governance)
- データガバナンスとして、パターンとガードレールを設定し、データ品質、グローバルデータカタログ、アクセス制御を管理
各ドメインのデータ取込み機構
レイクハウス、データメッシュの肝となる Ingestion Manager の役割です。
Databricks を中心に持つことで実現しています。
主な機能と特徴
1. パレートの法則を適用 (Pareto Principle)
- データを集中管理することによってパレートの法則に基づき、全体の80%の価値を生み出す20%の要素を見つけ出す
2. テンプレート化 (Usage Templates)
- データ取り込みの標準化されたテンプレートを使用し、効率的なデータ処理を促進
3. 標準化 (Standardization)
- データ取り込みプロセスの標準化を行い、一貫性と信頼性を向上
4. 監視 (Monitoring)
- データ取り込みプロセスをリアルタイムで監視し、異常やインシデントを迅速に検出して対応
データ取り込みの処理フロー
1. 起点 (Origins)
- メインフレーム、オープンシステム、SQL、Oracleなどからデータを収集
- Kafkaや他のストリーム処理プラットフォームを使用して、データを取り込み
2. 取り込み (Ingestion)
- データはIngestion Managerに取り込まれ、各ドメイン(Domain 1、Domain 2、...)に分配
3. メタデータ管理
- データのメタデータを管理し、データ品質やアクセス制御を実施
4. アラートとインシデント管理
- ServiceNowやTeamsと連携し、アラートやインシデントを管理
- 監視パネルを使用して、データエンジニアや運用チームがリアルタイムで状況を確認
管理画面は Databricks AI/BI を利用して以下画面を作成されていました!
3. MLOps とデータエンジニアリングパイプライン
データメッシュアーキテクチャはあくまで環境整備です。溜まったデータをどう活用するか、MLOps はブラデスコ銀行のデジタル化と AI の取組でも中核を成す位置づけとなっているようです。
ブラデスコ銀行における ML Ops
ブラデスコ銀行における MLOps の全体観
MLOpsは、機械学習、ソフトウェアエンジニアリング、データエンジニアリング、CI/CD DevOpsの各分野を統合し、AI/ML開発における全プロセスをシームレスに管理することを目的にしています。
1. デザイン
- 要件定義 : モデル開発に必要な技術的要件を定義
- ML活用ユースケースの優先順位付け: 重要度の高いユースケースを特定
- データの可用性確認 : 必要なデータが利用可能であることを確認
2. モデル開発
- データエンジニアリング : データの収集、変換、保存を実行
- MLモデルエンジニアリング : 機械学習モデルの開発とトレーニングを行う
- モデルのテストと検証 : モデルの性能を評価し、最適化
3. デプロイ
- MLモデルのデプロイ : トレーニングされたモデルを運用環境に展開
- CI/CDパイプライン : 継続的インテグレーションとデプロイメントのパイプラインを実装
4. 検証/監視
- モデルの性能を評価し、必要に応じて調整
- モデルがデプロイされた後の運用監視の設定の実行
- 継続的にパフォーマンスを監視し、異常が検出された場合にアラートを発報
一連の流れが以下スライドで公開されていました。ベースになるのは Unity Catalog でのガバナンスと Delta Lake によるレイクハウスアーキテクチャですね!
アーキテクチャ概観
アーキテクチャの詳細とポイントを聞いた限りの範囲でまとめました。
計画と自動化 (Planning and automation)
- Jiraを使用してプロジェクト管理とタスクの自動化
モデルトレーニング (Model training)
- DatabricksとVisual Studio Codeを使用してモデルのトレーニングを実行
- データサイエンティストが高性能な機械学習モデルを開発
ソースコード管理 (Source Code Management)
- Bitbucketを使用してソースコードのバージョン管理
- コードの変更履歴を追跡し、複数の開発者が共同で作業できる環境を整備
ビルド (Build)
- Bambooを使用して、コードのビルドプロセスを自動化
- 一貫したビルドが可能となり、コードの品質を維持
アーティファクトとモデルリポジトリ (Artifact and Model Repository)
- Sonatype Nexus Repositoryを使用して、ビルドされたアーティファクトとモデルを保存
- リリースされたアーティファクトの一元管理
デプロイユニティカタログ (Deploy Unity Catalog)
- Databricks Unity Catalogを使用してモデルを各環境(開発環境(DEV)、ホスティング環境(HOM)、本番環境(PRD))にデプロイ
4. データプロダクト
データメッシュアーキテクチャに伴いデータ=プロダクトという考え方が根づきました。各ビジネスドメイン内で生まれるデータをどのように管理して活用しているかを話して頂きました。
データプロダクトが提供すること
1. ドメイン指向のデータ管理
- 各ビジネスドメインは独立してデータプロダクトを生成し、管理
- データはトランザクションシステムから分類され、各ドメインで蓄積
2. データカタログと品質管理
- データカタログは、データのメタデータを管理し、データの品質と整合性を確保
- 各ドメインチームで自身のデータプロダクトの品質を管理し、ビジネスニーズに応じたデータを提供
3. データスクアッドの独立性と協力
- データチームは、協調することも自律してもプロジェクトが推進できるように設計
- 既存資産を理解した上で新しいデータ活用を始めることができる
5. データメッシュアーキテクチャの導入により得られた成果
ブラデスコ銀行の取組によって得られた成果も公開されていました。
データに関連する取組の ROI 測定に悩まれる方の参考になりますね!
定性的な成果
1. Improve Customer Experience(顧客体験の向上)
- 各顧客に対するより的確なクレジットオファーを提供することで、デジタルジャーニーにおける顧客体験を向上
2. Focus on delivering value to the business(ビジネスへの価値提供に注力)
- 高品質なデータを使用してより良いオファーを提供することで、ビジネス価値の提供に注力
3. Time to Market(市場投入までの時間短縮)
- データパイプラインとモデルの提供にかかる時間を短縮により市場投入までの時間も圧縮
4. Reduce Architecture Complexity(アーキテクチャの複雑さの軽減)
- 一部のワークロードで最大75%のコンポーネント削減を達成し、アーキテクチャの複雑さとコストの圧縮を達成
定量/ビジネスにおける成果
与信判定や詐欺検知判定などの分野での成果
- データプラットフォームとトランザクションデータを統合し、高速なモデル運用が可能に
- カスタマージャーニーおいて顧客維持率を50%以上改善する
- 440億円以上の与信判定で高度化されたモデルを適用できている
自動車ローン事業における成果
- 2億人の顧客向けに迅速なデータパイプラインとモデル推論を提供
- 特徴量エンジニアリングのパイプライン処理の実行時間が 12 時間
- モデル推論のパイプライン処理は 40 分
※このデータ量と推定される特徴量から考えると凄まじい成果ですね!
まとめ
ブラデスコ銀行のデータメッシュアーキテクチャの導入のプロセスと成果についてまとめていきました。
データメッシュアーキテクチャってなに?という方にもデータ=プロダクトとして考えていくことで生まれるビジネス成果が少しでも伝われば何よりです!
今後も DAIS 2024 で聞くことが出来た最新のデータアーキテクチャの事例をどんどん記事にしてシェアしていきたいと思います!
関連リンク
- Data & AI Summit 2024 事例セッション詳細レポート! 「ラテンアメリカ最大の金融企業ブラデスコ銀行のAI駆動型改革 - データメッシュアーキテクチャによるデータプラットフォームのモダン化」※本記事
- Data & AI Summit 2024 セッションレポート 「シェルのデータガバナンスとデータブリックス活用」
- Data & AI Summit 2024 セッションレポート 「Databricksのデータ&生成AIを活用したビジネストランスフォーメーションの推進」※近日公開
- Data & AI Summit 2024 セッションレポート 「データメッシュアーキテクチャによるデータプラットフォームの近代化」※近日公開