この記事は 「株式会社メソドロジック Databricksチーム」の共同執筆になります。
参加したセミナーの概要
開催要領はこちら
お詫び事項
失念して会場の雰囲気を写真でお伝えすることができません。ご容赦ください。
会場の雰囲気
ホテル地下の会議エリアで講演ルーム内はゆったりでしたが、パネルセッションとカスタマーセッションのエリアは、通勤電車ぐらいの込み具合でした。軽食やお菓子が提供されていたので、会場にずっと籠もれました。最後のカクテルパーティーの提供も豪華で、勢いのある分野のトップ企業の懐の大きさに感動しました。
ここから本題です
講演は同時間帯複数開催の択一式です。全講演を見聞きはしていません。以下に私が参加できた講演をレポートします。
9:30 到着と受付
会場に到着し受付けを済ませます。QRコードで簡単にできました。途中から機会が故障して名札の発行が滞っていたようです。完璧に未来を予測することは難しいですね😅
10:30 - 11:00 入門セッション
会場スタッフの指示に従い、15分前に受付けして先着順のセッションに参加しました。
テーマ
データブリックス入門セッション (技術部門向け) ゼロからはじめる入門データブリックス!
スピーカー
Databricks ソリューションエンジニア 北岡早紀氏
Databricksとは何か?
-
LakeHouseプラットフォームの説明
-
データとAIの成熟度曲線 1 の初手としてDWH、後半として予測やリコメンドでデータレイクが必要になる。
-
1つのプラットフォームで行えるようにしたものがレイクハウスであり、ガバナンス・セキュリティ向上・サイロ化防止のメリットがある。
特筆する機能5つの紹介
- マネージドETL
- データウェアハウス
- MLFlow
- UnityCatalog
- DeltaSharing
アーキテクチャ
-
コントロールプレーンとデータプレーンの2つの登場人物がいる。
-
データプレーンはクラウド内に立ち上がるデータドメイン、Databricksはデータは腹持ちせずクラウドに取りに行く。
-
アーキテクチャのメリット
- スケーラビリティ
- コンピュートとストレージが分離しているのスケーリング可能
- ストレージはクラウド制限に委譲
- セキュリティの担保
- コストの減少
- データコストはDatabricksでは発生しない。
- コンピュートクラスタはクラウドで立ち上がる。
デモ
- notebookでカグルの負債データを使って貸し倒れリスク分析のデモ。
- カグルのcsvをカタログにインポートする。
- カタログエクスプローラーでデータの概要を確認する。
- 権限や履歴やリネージをタブ切替で確認する。
- 洞察APIで長期間使われていないデータを分別する。
- displayしてノートブックで表示してsqlでメダリオンの流れ。データプロファイルで基本統計の見方。
- UnityCatalogでのデータリネージの確認方法。リネージグラフで一目で確認できる。
- データセットのバージョン管理。
- AutoMLのデモ(駆け足)
- モデルを作ってサービングする。
- notebookでAutoMLの実行過程がコード化されるのでチューニングも容易であると説明。
11:30 - 13:00 基調講演
テーマ
データの民主化
スピーカー
Databricksジャパン代表 笹氏
- パッケージカスタマイズによる対応がData+AIに代わる。
- DataFoward企業、つまりAIが次のアクションをサジェスションしてくれるところまで活用できている。
- これを実現するために必要なコンポーネントがすべてそろっているのがDatabricksだ。
- SSOT(single source of truth) 様々な場所にあるデータを1箇所に集める。DeltaLakeをUnityCatalogでガバナンス等のマネージを行う。
- Lakehouse Federation(新機能)集めるだけでなくアクセスする。外部接続のためのアクセスポイントを統合する仕組み。コピーせずに外部データを扱えるのがメリット。
テーマ
デモ
スピーカー
Databricks ソリューションエンジニア 北岡早紀氏
- サプライヤーの情報を見る。
- プラットフォーム全体からキーワード横断検索できる。
- データの依存関係でリネージュを列レベルで知ることができる。
- カタログエクスプローラーから外部データソースを作成して、内部データと同じように権限付与ができる。
テーマ
携帯事業の差別化の取組
スピーカー
ソフトバンク ITアーキテクト本部 安芸部長
- 目的から入るべし。ガバナンスで安全に使えることが重要。
- 性能と運用の問題に方針をたててデータ基盤を作成して取組み。データの一元管理と統合性に配慮した。
- データは漏洩対応のためにローカル廃止、個人情報保護法対応のためにすべてハッシュ化。
- 携帯事業の差別化の取組
- 各基盤と役割の関係性の整理
- データ処理基盤 データエンジニア
- AI分析基盤 データサイエンティスト
- プレパレーション基盤 データスチュワード データだけでは不足するユースケースに対応
- 見えてきた課題
- 基盤強化
- 処理性能向上
- 品質向上
- ガバナンス向上
- SSOTの実現
- 障害撲滅
- 鮮度向上
- コスト削減
- AIの民主化
- 試行錯誤の過程の管理の難しさ。モデルとデータセットの爆発。Databricksならできる。
- MLOps=DeveOps(コード)+DataOps(学習データ)+ModelOps(モデルとパラメータ)
- LLMOps = Devops + DataOps + ModelOps + Apps
テーマ
LLMのデモ
スピーカー
Databricks ソリューションエンジニア 北岡早紀氏
- ChatGPTで素のモデルと拡張学習したモデルの違い。
- 追加文章をベクトル化し類似性が高いものを取り込んでいる。
- モデルもデータと同じようにカタログに登録できる。モデルもリネージュが閲覧できる。モデルサービングでマネージサーバで実行できる。
- モデルの評価も一覧でできる。
- Databricksをつかうメリット
- コントロール
- プライバシー
- 費用対効果
- MosaicMLを今年中に日本に展開予定。これで自然言語指示でSQLを作成できるようになる。
テーマ
CCCの取組み
スピーカー
CCCMKホールディングス株式会社 松井太郎氏
- 三井住友とのポイントサービス提携しライフスタイル分析に利用。
- sparkエンジンで性能が10倍。
- 開発言語をpySparkに統一。
- 活用事例
- レコメンデーション
- 画像解析はDarabricksと相性が良い、マルチモーダルAI研究開発推進中
- MlFlowを積極活用し独自LLM開発。意思決定の支援に活用予定。
- Databricks MarketPlaceの国内提供本日開始
- 成功の方程式=Dataの民主化、AIの民主化だけでなく、人材を育てることが何より大切。
- これからの先端型人材
- トランスレーター(ビジネスアナリスト。データをビジネスにどう結び付けるかを担う)
- データアナリスト
- データサイエンティスト
- データエンジニア
- MLエンジニア、MLOpsエンジニア
- プラットフォームエンジニア、クラウドアーキテクト
- 人材強化を図る際のポイント
- 経営層から現場までゴール共有すること。
- 先端人材の理解
- 積極的なコラボレーション
- ラーニングパス、コミュニケーションの場を作る、評価基準、文化の醸成
テーマ
AGCの取組み
スピーカー
デジタルソリューション部 部長 等々力氏
- 組織作り、人材育成の事例
- 社内データサイエンティスト育成制度。先行育成者が後続を教育して25年までに100名目指す。
- スモールスタート。同時に乱立した取組をDarabricksで一元管理できるように取組中。
14:00 - 14:30 カスタマーセッション
テーマ
ティラドが推進する製造業DX と標準化に向けた取り組みのご紹介
スピーカー
ティラド DX開発部 上級エキスパート 鈴村氏
- データ分析基盤に見据えていたこと
- サブシステムでDX全体構想を考えた。
- Databricksが出る前からデータレイクであらゆるデータ(見積、受注、設計、生産計画、調達、生産工程、生産実績、納品物、品質クレーム)を一元管理する構想は持っていた。
- 予兆検知、要因分析のAnalyzeと計画立案のThinkでの活用を考えていた。
- Databricksを導入する前の課題
- Databricksの前はAWSサービスで取組んでいたが、制限やパフォーマンス劣化に悩まされていた。
- データのサイロ化 属人化 所在わからず
- データ統制の問題(クラウドの制約) 個人情報は個人管理 データフローの属人化
- データ設計と運用の問題(RDBの限界) 用途を途中で変更することができない。
- Databricksを導入して
- 生データから再加工ができるようになったので、コンカレントエンジニアリングができるようになった。
- 入力はS3とSalesForce(Fivetran)、HightTouchでSalesForceにリバースし再活用できるようになった。
- 統合されていて開発~メンテが非常に楽。
- データ検索性、連携性が向上した。
- データの権限管理が容易になった。
- データ基盤はインフラで5名で回せるようになった。
- データメッシュによる統制が可能になった。
- 国ごとに変わる統制は、ドメインごとにワークスペースを分離し統制、UnityCatalogで監査ログを取得
- DeltaSharingでリージョン間共有。(国内でのDeltaSharingの実用事例はまだ少ない。)
- DeltaSharingはコピー不要でリアルタイムで共有ができる仕組み。
- その他ドメイン構築とアクセス管理はTerraformで標準化しスキルのばらつきに対応。
- Terraformを使うきっかけは、イレギュラーを防ぐ、構成管理をコードとして残す目的。
- 活用事例
- 生産分析:生産性、不良率、稼働時間、段取り替え時間 の各指標の分析やレポート
- 効果
- ライン管理工数削減
- 海外支援の効率化(コミュニケーション効率化)
- 品質分析 製品検査結果の蓄積・検索
- 効果
- 原因調査工数削減
- 傾向把握で未然防止
- 突発トラブル頻度の低減
- AI画像検査 外観検査とAI自動化
- 効果
- 検査精度の安定化
- 検査工数の削減
- AIモデル運用の効率化
14:30 - 14:50 スポンサーライトニングトーク
テーマ
ナレッジコミュニケーション LakeHouseIQの期待
スピーカー
データの中身を自然言語で解説してくれる
- 新機能のLakehouseIQ 2 の紹介
- 見込める効果
- データ統合問題
- 利活用促進(特に非エンジニアに向けての)
- エンジニア依存脱却
14:50 - 15:20 データブリックスセッション
テーマ
エンタープライズ向けガバナンスの進化。Data GovernanceからData x AI Governanceまで。
スピーカー
Databricks ソリューションアーキテクト 長谷川氏
データ&AIガバナンスの導入ヒント
- ビッグデータ歴史の紹介(過去から現在の順で)
- コンピュートとストレージの密結合
- Hadoopで並列処理が出始める。まだオンプレでコンピュートとストレージはまだ一体化
- AWSが出てコンピュートとストレージが分離されている。
- ApachePigやApacheHive言語がでSQLライクでかけて開発が進む。
- インメモリのSparkでデータ処理が向上する。
- Kafka、Fluentd、SparkStreamngでリアルタイム化
- Airflow データパイプライン可視化
- GreatExpectationsでデータ品質が向上
- DataHubでメタデータ管理が向上
- MlFlowなどで機械学習のライフサイクルマネージメントが進む
- DeltalakeやIcebargやhudiなどでファイルベースでのテーブル管理が実用的に。
- mosaiclMlやHubbing FaceでLLM開発フレームワークや機械学習アプリケーションフレームワークが出現し始める
- UnityCatalogでデータとAIモデルがリネージュで一気通貫管理(一画面で管理できるようになった画期的)できるようになった!
- MLパイプラインの品質管理が容易に
データガバナンスの課題
- 数年前のErnst&Youngのデータガバナンスについてのサーベイによると、攻めのデータガバナンスができていないという結果が出た。理由としては、
- テクノロジーでデータが分断されていた
- そもそもモチベーションがなかった。(データを活かせる実用的なテクノロジーがない)
- 近年の生成AIの登場により、労力をかけるだけの価値がありそうだという認知が醸成されてきた。
- これによりデータガバナンスの必要性が認知されてきた。
データガバナンスのプラクティス(上から順に考える)
- データは特段の理由がなければ共有
- アクセス制限は必要なところに限定する
- 共有単位
- 規制や法律
- 法人
- 国
- 事業
- 機能
- 上記の概念単位のガバナンスがUnitiClatogで柔軟に設計できるようになった。
- 論理的に制限する
- 物理的に制限する
- 共有単位
15:40 - 16:10 データブリックスセッション
テーマ
データブリックスを駆使したビジネスモデル変革 ー マネタイズ手法と成功事例
スピーカー
Databricks ソリューションアーキテクト Kohei Arai氏
- DarabricksのプラットフォームでデータやAIモデルの共有やマネタイズする方法
- データを共有することの重要性
- コラボレーションにより事業効果が向上するから
- データ共有を支える技術
- データシェアリングソリューションには課題が6つあった
- ベンダーロックイン
- 構造化・非構造化の両方に対応しない
- データガバナンスの欠如
- コスト高い
- 集積化の機会が限られている
- データ活用への時間が長い
- データシェアリングソリューションには課題が6つあった
- 技術が実用的になった
- プラットフォームを跨いだ共有ができるようになった DeltaSharing
- 全てのデータとAIを共有できるようになった DatabricksMarketPlace
- データ、AIアセットをオープン取引市場
- 安全な方法で共有できるようになった DarabricksCleanRooms
16:30 - 17:00 カスタマーセッション
テーマ
データガバナンスの視点から見たデータメッシュアーキテクチャ
スピーカー
株式会社カケハシ データ基盤 プロダクトマネージャー 東氏
- SQL分析業務における課題解決やDWHのマイグレーションのNextActionのヒント。
- DatabricksSQL
- 多様なワークロードに対応。バッチを動かしながら、BIからの処理に対応。
- コンピュートソースが分離されていてスケーリング可能なため。
- サーバレスコンピュート(GA)。3秒で立ち上がる。
- 有用な機能の紹介
- 行レベルセキュリティ
- 列レベルマスク
- プレディクティブオプティマイゼーション
- クエリフェデレーション
- リモートのデータをローカルリソースのように扱える
- JDBC接続の外部テーブルとしてUnitiClatogに登録
- リネージュやガバナンスも同じようにできる。
- ストリーミングテーブル
- SQLのみで差分データを自動的に取り込めるテーブルが作れる。
- マテリアライズドビュー
- 結果を事前に計算しておき、差分データの取り込みが行える。
- ユーザ定義関数(UDFs)のPythonサポート
- SQL以外にPythonも使えるようになった。
- パフォーマンス向上
- リッドクラスタリング
- 従来のパーティショニングはワークロード限定的、物理レイアウトの最適化が困難などの制限あり
- パーティションを使用しない柔軟なデータクラスタリングを提供(クラスタリングキー)
- Zorder:低コストに提供 書込み時自動、実行時間の改善、クラスタリングキーの結果をカタログで確認
- プレディクティブIO
- 機械学習でオプティマイザを補完し、効率的にストレージIOを削減
- リッドクラスタリング
- 管理とガバナンス
- 行レベルマスキング、列レベルフィルター(Databricksにも登場)
- プレディクティブオプティマイゼーション
- デルタテーブルを最適化するためのオペレーションを自動的に識別 管理オペレーションを最適化
講演レポートは以上になります。
おまけ
パネルセッションの訪問コンプリートしてTシャツもらいました。翌日オフィスに着ていきましたが、誰にも注目されませんでした。