皆様お疲れ様でした & ありがとうございました!
スタート前から、これまでにない盛り上がりを見せていた今年のアドベントカレンダーでした!開始前の時点で参加者数、購読者数ともに過去最多となっておりました。おじさん嬉しいです。
ということで、今日でアドベントカレンダーが終了となりますので、いろいろと振り返りをさせていただければと思います。
なお、今回は初めてシリーズ4まで行きました!
概要
まずは、データ&AIカンパニーとしてデータから。
参加者数、購読者数に加え、お気に入り数も過去最多、昨年の2倍以上となっております!そして、特筆すべきはDatabricks社員以外の方の投稿比率の急激な増加です。Databricks社員の投稿以上にお客様に記事を投稿いただきました!これはまさに、多くのお客様にDatabricksを使ってもらえるようになったことの証左ではないでしょうか。
入社して4年経ちますが、最近のニュースでもDatabricksに取り上げられるようになって嬉しい限りです(先日はモーニングサテライトに取材いただき、私も背中だけテレビに映りました)。とは言っても、日本での認知はまだまだだと感じていますので、引き続き頑張っていきたいと思います!
記事のピックアップ
毎日通知がやってきて見るのも大変(うれしい悲鳴)でしたが、いくつかの記事を引用させていただければと思います。
Data Platform Engineering Tool として Databricks Asset Bundles が便利だった
いきなりアセットバンドルがくるとは。渋い、素敵。データプラットフォームエンジニアリングという考え方は初めて知りました。セルフサービスでアプリケーションを提供するためのプラットフォームを整備するという考え方、まさにアセットバンドルがぴったりだと思いました。
Azure Databricks ワークスペースにアクセスできないときのトラブルシューティング
Azure Databricksにログインできない6つの事象、それに対する解決策をまとめていただいています。
Databricks社内環境をTerraformで構築した話
アセットバンドルと領域が近いですが、Terraformを用いることでDatabricksのワークスペース環境をIaCで構築できます。こちらの記事では、Terraformを用いたワークスペース作成、カタログ作成、計算リソース作成、ダッシュボード作成までをカバーされています。
なぜDatabricksは人々を魅了するのか😊
個人的にはすごく刺さった記事です。Databricksの会社の沿革から、レイクハウスなどの概念、お気に入りの機能など、非常にDatabricks愛に溢れる記事を書いていただいています。ありがとうございます!
Databricks と TROCCO の融合で実現するシームレスなデータパイプライン構築入門
最近、パートナーシップを発表させていただいたTROCCOとの連携をSalesforceからのデータ取り込みパイプラインの構築を通じてウォークスルーいただいています。
Databricks経由Machine Learningの旅 第三話 -Unity Catalogの特徴を捉える-
機械学習モデルの構築の観点からUnity Catalogを整理いただいています。次回の記事をお待ちしています!
セルフ分析ツールとしてのDatabricks Genie:設定から活用まで
Databricks今年のビックリドッキリメカとも言えるGenie、有効に活用するためのベストプラクティスに加え、組織内に浸透させるためのアプローチについてもまとめていただいています。ありがとうございます!
Databricksクラスターの起動状態をAWS Lambdaを利用して監視する
これは目から鱗、というかこういうアプローチがあるんですね。おっしゃる通り、意図しないクラスターの軌道はコストへのインパクトがあるので、クラスターポリシーだけではなくこういった手立ても有効だと思いました。
Lakehouse Federation/データの仮想化:Databricks から AWS Glue Data Catalog につないでみる
Databricksのフェデレーション機能である、Lakehouse Federationを用いてAWS Glue Data Catalogに接続する手順を丁寧にまとめていただいています。GlueのデータをあたかもDatabricksのデータのようにアクセスすることができるので、シームレスなデータ連携が可能になります。是非ご活用ください!
databricksの資格全部とってみた(かった)
今年は資格に関する記事も多く書いていただいています。試験対策のためのRAGをご自身で構築(!?)されたり、Udemyを活用され、Databricksの資格、2つを除いて合格されてます!すごい!!
[Databricks]私的、できるだけ早期から考慮したい管理機能3選
こちらも非常に有益な記事です。Databricksに限らず、このようなプラットフォームにおいて管理の観点は非常に重要です。グループやサービスプリンシパルの活用、コスト管理に関してまとめていただいています。
Databricks Appsを触ってみた
これも今年のビックリドッキリメカ(しつこい)、Databricks上で簡単にアプリを組めるDatabricks Appsをご紹介いただいています。
【Databricks】Dashboardsでピボットテーブルを触ってみる
タイトル通りの内容なのですが、ダミーデータ作成のSQLが大変参考になりました。ありがとうございます!
Databricksの第一回推し地味アップデート選手権!(2024/12/06号)
弊社SAのKuwanoさんの記事です。Unity Catalogに外部クラウドアクセス用のサービスクレデンシャルを保存できる機能、SQL実行結果を保持する_sqldf
、ワークフローのforeachタスクタイプをご紹介されています。
【翻訳】Azure Databricksセキュリティベストプラクティス(バージョン2.0 - 2024年7月)
弊社SSAのNakazatoさんの記事です。すごいボリューム、その分勉強になります。勉強します。
MLflowをDatabricksで使うと嬉しいポイント5選
弊社ソフトウェアエンジニアのWatanabeさんの記事です。MLflow開発者の視点から嬉しいポイントをまとめられています。って、これはスゴいことだ。
ふつうのデータ基盤移行 - Part 2. 技術選定編
旧データ基盤からの移行先としてDatabricksを選定(ありがとうございます!)いただく過程を事細かにまとめられています。こういった流れで選定いただいているのかと新鮮な気持ちで読ませていただきました。技術的な側面のみならず、SAのサポートなども評価いただきありがとうございます!
貧者のDatabricks
こちらも示唆に富んだ記事です。Databricksは計算リソースを使った分だけお金がかかるので、どれだけ無駄なコストを発生させないかが重要となります。さまざまなTipsをまとめていただいています。ありがとうございます!自分もアドベントカレンダーでこちらを書きました。
センター試験の英語が200点中18点でも、ChatGPTを使ってDatabricks全7資格に合格する方法
こちらも資格系です。というか、タイトルのインパクトがすごいです。様々な翻訳技術を駆使してすべての資格を合格されています。すごい!
あと、こちらは私も同じ経験しているので全くもって同意です。
沢山の長文の問題を解くと、IT系の英文なら速読できる様になりました。
Azure DatabricksでUnity Catalogテーブル毎のストレージ容量を一覧表示する
AzureではAzure Data Lake Storage Gen2 (ADLS)のPythonライブラリというものがあるんですね。知りませんでした。ありがとうございます。
AWS S3×databricks×dbtでデータパイプラインを構築する方法
dbtとDatabricksの連携の話も最近は多く聞くようになりました。自分でも改めて勉強します(数年前に触ったきり)。
Databricksでモデルサービングを迅速デプロイするNotebook運用
これは勉強になりました。モデルサービングエンドポイントをデプロイする際には、当然デプロイするモデルをトレーニングする必要があり、それに付随して共通する前処理や後処理が存在するケースは多いと思います。それらをノートブックにテンプレート化し、データサイエンティストはテンプレート上にトレーニングのロジックを記述し、後処理の中にあるデプロイメントのコードでモデルサービングエンドポイントを作成すると。なるほど。
[2024年12月版] Databricksとは何か?
私の記事ですが。毎年このタイミングで振り返るようにしています。
DatabricksによるVポイントのAI基盤構築 システム構成と効果
Findyに寄稿いただいた記事です。選定理由やツールの良し悪し含めて網羅的にご説明いただいています。ありがとうございます!
Databricks のフリートインスタンスの仕様調査DAYO!
こちらもKuwanoさんの記事。フリートインスタンス使ったことなかったですが、スポットインスタンスを有効に活用するには必須の機能ですね!
Genie教育のためにやったことあれこれ
Qiita初投稿おめでとうございます!Genieを素で使うと思った通りの挙動になりがちですが、こちらの記事ではインストラクションやサンプルクエリー、テーブルのコメントを工夫して精度を改善されています。
まとめ
数もさることながら、その質と多様性にびっくりしました。本当にご参加いただきありがとうございます!
- インフラ周り(アーキテクチャ、セキュリティ)
- Databricks運用(コスト管理、ユーザー管理、モデルデプロイ)
- ツール連携(dbt、TOROCCO、ADF、BQなどなど)
- Genieのベストプラクティス
- LLM活用
- 資格
- Spark(これは私か)
また来年もよろしくお願いします!良いお年を!