はじめに
Databricksは、Apache Sparkをベースにしたクラウド型のデータ分析・AIプラットフォームであり、データレイクとデータウェアハウスの利点を統合した「レイクハウス」アーキテクチャを提唱しています。データエンジニアリング、データサイエンス、機械学習、生成AIといった領域を一つの環境で実行できるのが大きな特徴です。
本記事では、Databricksを学習するにあたり参考にした資料や情報源を整理してご紹介します。私自身、Databricksを学ぶのは今回が初めてであり、初心者の立場から情報を収集・整理しています。これからDatabricksの学習を検討されている方や、関連領域に取り組まれる方にとって、初期段階の参考となれば幸いです。
初めてDatabricksを学習する際に参考とした情報
①公式トレーニング
初めてDatabricksを勉強する時にまずは王道の公式トレーニングから始めました。DatabricksのTrainingページには、無料コンテンツから有料のものまでまとまっていて便利です。
私の場合、「すべてのトレーニング」を見るから「Trainig Library」のページに行き、 検索条件で「Free」かつ「日本語」を選ぶと、日本語のトレーニングが出てきます。この中で初めに全体を学べそうなDatabricks Fundamentals - Japanese(日本語版) から受講しました。
②Free Editionで実際に触ってみる
やはり手を動かすことが一番理解力が高まると思い、Free Editionを試してみました。
実際に環境を確認するときには下記のブログを参考にさせていただきました。
Databricks Free Editionチュートリアル
③Qiita記事を読む
Databricksとは何かがなんとなく把握できて、自分の調べたい情報を探すときはQiitaも役立ちました。一方で最初からDatabricksでざっくり調べると、何から読んだらいいのか迷ってしまったので、まずは公式トレーニングをお勧めします。
キャッチアップに役立つ補足情報
ここまで紹介した資料以外にも、Databricksをキャッチアップする方法はいくつかあります。自分が実際に取り組んだものや、これからやってみたいと思っているものをまとめてみました。
①イベントに参加する
Databricks社のイベントだけでなく、パートナー企業や事業会社と共催されるものも多くあります。私は実際に事業会社の事例紹介に参加しましたが、業務での使い方をイメージしやすく、技術的に勉強する前に全体像をつかむのにとても役立ちました。
②Databricks Japan公式YouTube
過去のウェビナーやデモ動画、サービス概要の説明などが公開されています。実際の画面や導入事例を動画で視聴できます。個人的にはじめは概要がおすすめです。
③認定試験を活用する
これは今後挑戦してみたいと考えているものです。AWSなどと同じように、試験勉強を通して体系的に学べるのが魅力だと思っています。Udemyなどでも試験対策講座があるので、効率的にキャッチアップする方法として良さそうです。
感想
これまでBIやDWHの領域に携わってきた私にとっても、Databricksは最初はとっつきにくく、「これは一体何のツールなんだろう?予測のためのもの?」というところからのスタートでした。
実際に勉強してみると、データ業界の中でも新しいコンセプトを打ち出していたり、機能がすごく豊富だったりと、かなり魅力的なソリューションだと感じました。
まだまだ理解しきれていない部分も多いですが、引き続き学んでいきたいと思います。同じようにこれからDatabricksを勉強しようと思っている方の参考になれば嬉しいですし、もし「こんな学び方がよかった!」というものがあればぜひ教えていただきたいです。