はじめに
株式会社NTTデータ デジタルサクセスソリューション事業部 の nttd-saitouyun です。Databricksを活用したデータとAIの活用支援をしております。
Databricksを推進する取り組みの一環で記事の執筆を行っています。記事がやや色々なメディアに散ってしまい、わかりにくくなってきたため、まとめページを作成しました!
まだまだ数は少ないですが、今後も記事を増やしていきます!
アーキテクチャ
機能全般
データエンジニアリング
テーブル
データ処理
非構造化データ
- Databricks で Shutterstock の画像データを分散処理する
- Databricksで医療画像データDICOMを活用する方法(1/2)
- Databricksで医療画像データDICOMを活用する方法(2/2)
データパイプライン
レイクハウスフェデレーション(データの仮想化)
- Databricksがデータ仮想化を実現!レイクハウスフェデレーションで社内データ活用を効率化
- Lakehouse Federation/データの仮想化:Databricks から Snowflake につないでみる
マーケットプレイス
データアナリティクス
AI Functions
-
Databricks SQL AI Functions を使ってデータ分析してみる(感情分析・分類) [ai_analyze_sentiment function / ai_classify function]
-
Databricks SQL AI Functions を使ってデータ分析してみる(翻訳・基盤モデルの呼び出し) [ai_translate function / ai_query function]
-
Databricks SQL AI Functions を使ってデータ分析してみる(情報抽出・類似度) [ai_extract function / ai_similarity function / ai_query function]
-
Databricks SQL AI Functions を使ってデータ分析してみる(マスキング・要約・文法修正) [ai_mask function / ai_summarize function / ai_fix_grammar function / ai_query function / ai_similarity function]
データサイエンス
(Coming Soon)
生成AIとLLM
Mosaic AI Playground
-
Meta Llama 3.1 on Databricks を Mosaic AI Playground で試してみた(動画あり)
-
Mosaic AI Playground で Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro と同時にチャットする
-
Databricks の Mosaic AI Playground に Agent Evaluation が統合されたみたいなので動かしてみる
Mosaic AI Model Serving
-
Databricks の Mosaic AI Model Serving Endpoint から Amazon Bedrock の LLM を利用する
-
Databricks の Mosaic AI Model Serving Endpoint から Azure OpenAI の LLM を利用する
-
Databricks の Mosaic AI Model Serving Endpoint から Google Cloud Vertex AI の LLM を利用する
MLflow LLM Evaluate
- MLflow LLM Evaluate で Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro との QA を評価する
- MLflow LLM Evaluate:モデルサービングされたLLM をカスタム関数で評価する
- MLflow LLM Evaluate:mlflow.metrics.latency() で ValueError が発生した時の対処方法
- MLflow LLM Evaluate:Amazon Bedrock / Claude 3.5 Sonnet で LLM-as-a-Judge による LLM の評価
Mosaic AI Vector Search
Mosaic AI Agent Framework
- Databricks デモ:Compound AI System and Agent Tools - その1
- Databricks デモ:Compound AI System and Agent Tools - その2
その他
- Databricks から Amazon Bedrock を使ってみた [English SDK for Apache Spark]
セキュリティとガバナンス
パフォーマンス
モニタリング
- Databricks Assistant システムテーブル を触ってみる
- Databricks Query history システムテーブル を触ってみる
- Databricks Node timeline システムテーブル を触ってみる
インテグレーション
AWS
- Databricks の Mosaic AI Model Serving Endpoint から Amazon Bedrock の LLM を利用する
- Databricks から Amazon Bedrock を使ってみた [English SDK for Apache Spark]
Azure
Google Cloud
Snowflake
Informatica
コスト
- Databricks on AWS クラスター利用料金単価の早見表(Enterpriseプラン・2024年7月)
- Databricks on AWS クラスター利用料金単価の早見表(Premiumプラン・2024年7月)
- Databricks on AWS クラスター利用料金単価の早見表(Standardプラン・2024年7月)
- Databricks on AWS SQLウェアハウス利用料金単価の早見表(2024年7月)
トラブルシューティング
デモ
- Shutterstock の非構造データの活用
[マーケットプレイス / ノーコード / 非構造データ / ベクトル検索 / 画像処理]
事例
学習方法
認定資格
総論
合格体験記
- Databricks Certified Machine Learning Associate 合格体験記
- Databricks Certified Machine Learning Professional 合格体験記
- Databricks Certified SQL Analyst Associate 合格体験記
- Databricks Certified Generative AI Engineer Associate 合格体験記
イベント
Data + AI Summit
その他
技術活動
- 集まれ!Legendary Heroes of DATA + AI !! 〜Databricks Champion のご紹介 Vol.1 NTTデータ様編〜
- テクニカルエバンジェリストとしての活動の振り返り 2023
アライアンス活動
- 統合データ分析基盤を提供するデータブリックスの「Data & AI Governance Partner of the Year for Japan」を受賞
- 統合データ分析基盤を提供するデータブリックスのパートナー評価で日本企業初の「Elite」を獲得
- データブリックスのAPJ Databricks Partner Award 2023において「Regional System Integrator Partner」および「Top Consumption Partner」を受賞
- データブリックスの「APJ Partner Champion of the Year」を受賞
- 「データとAIの民主化」推進に向けデータブリックス・ジャパンとパートナーシップ契約締結
参考
公式の情報
- ホームページ
- Databricksドキュメント(マニュアル)
- Databricks PySpark API Reference
- Databricks Japan - Speaker Deck
- Databricks Academy(トレーニング)
おわりに
Databricks 以外にも様々な記事を公開しております!