はじめに
本記事は「Databricksをこれから触ってみたい方」「野球データを題材にデータ分析を練習してみたい方」を対象にしています。
記事をご覧いただきありがとうございます。
この記事では、「Databricks初心者が野球のデータ分析する」をテーマに、データ収集から分析、さらに自動化までの流れをやっていきたいと思います。
この記事を作成するにあたった経緯ですが、私自身これまで、システムのインフラの保守、運用をメインに業務を実施していました。自社でDatabricksを扱う可能性があったため、Databricksの学習をどのようにして進めていったかを記録として残しておきたいと思ったためです。
私と同じように「これからDatabricksを触ってみたい」という方に少しでも参考になればと思います。
この記事では、手順などは記載せず大まかな概要を記載しておきたい思います。
今回実施したこと
全体の流れは以下の通りです。
・データ収集(スクレイピング)
野球成績サイトから最新の成績データを取得します。
・AWS S3に保存
取得したデータをS3バケットに保存し、Databricksからアクセスできるようにします。
・Databricksでデータ分析
SQLやPySparkでデータを加工・可視化し、簡単な予測モデルも作ってみます。
※今回は2025年の9月時点の成績から、各選手の最終成績を予測するものを作成してみました。
・ジョブで自動化
データ取得から分析までをスケジュール実行し、定期的に更新できる形にします。
筆者のスキル
・Databricksはハンズオンや他のQiitaの記事で学習済み(Databricksの基本的な操作は経験済み)
・Pythonの文法を少し知っている(Pythonソースが分かるくらい、筆者は開発をほとんどしたことはありません)
・SQLを少し触ったことがある(SELECT、WHERE、GROUP BY程度)
今回のテーマ
この記事では、以下を扱います。
・Databricksとは
・Databricksの基本操作の学習方法について
・使用したツール・サービスの紹介
・実施環境の全体像
・Databricksで加工、可視化したもの
Databricksとは何なのか?
公式のページには以下のように記載されています。
Databricks とは
Databricks は、エンタープライズ レベルの大規模なデータ分析やAIソリューションを構築、デプロイ、共有、保守するための統合されたオープンな分析プラットフォームです。Databricksデータインテリジェンスプラットフォームは、クラウドアカウントのクラウドストレージとセキュリティと統合し、クラウドインフラストラクチャを管理およびデプロイします。
正直私は上の文章をみてもよくわからなかったので、自分の言葉で簡単に表すとこんな感じかなと思っています。
Databricksは「データを集める・整理する・分析する・AIモデルを作る・結果を共有する」をひとつの場所で完結できるサービスです。
これまでバラバラだった「データの保存場所」「処理基盤」「分析ツール」「可視化ツール」をまとめて扱えるので、データ活用をスムーズに進められるもの。
正確にとらえられているかはわからないですが、大きくは外れていないと思っています。
Databricksの基本操作の学習方法ついて
私は同じ会社の方が書いていただいた記事と公式のチュートリアルでまずDatabricksの基本操作を学びました。
まだ、Databricksをふれたことがない方は参考にしてみてください。こちらやっていただくと基本的な操作は把握できると思います。(きっちりやると3日~5日くらいかかると思います)
また、こちらの記事では自社環境で実施されているものとなっていますが、Databricksは無料トライアルを利用することが可能です。
利用期間や機能には制限がありますが、トライアル環境と上の記事で基本操作は学ぶことができると思います。
今回使用したツール・サービスの紹介
今回の使用した主なサービスと役割は以下の通りです。
※AWSを使用しています
サービス/ツール | 役割 |
---|---|
Python | データ取得(スクレイピング)、前処理 |
AWS EC2 | スクレイピングスクリプト実行環境 |
AWS S3 | データの保存場所 |
AWS IAM | DatabricksからS3にアクセスするためのロールを作成します |
Databricks | データ分析・可視化・モデル構築 |
Unity Catalog | Databricks内でのデータ管理 |
実施する全体像
今回実施した環境のイメージ図を記載します。
EC2を構築して、野球のデータサイトからデータをスクレイピングできる環境を用意しました。作成したデータ(csvファイル)はS3バケットに配置するよう設定して、DatabricksとS3を連携後、配置したデータをdatabricksで読み取り、加工と可視化を実施していく流れです。
Databricksで加工、可視化したもの
作成してみたものの一部を共有いたします。
本記事は学習目的で作成しており、実際の成績予測を保証するものではありません
次回はDatabricksを操作するために必要なデータの収集(スクレイピング処理)について記載したいと思います。
間違っている箇所、更新した情報があった際は別途更新しようと思います。
用語の補足