ゼロから始めるDatabricks×野球データ分析 #01 プロジェクト概要と環境構築

Last updated at 2025-09-04Posted at 2025-09-01

はじめに

本記事は「Databricksをこれから触ってみたい方」「野球データを題材にデータ分析を練習してみたい方」を対象にしています。

記事をご覧いただきありがとうございます。
この記事では、「Databricks初心者が野球のデータ分析する」をテーマに、データ収集から分析、さらに自動化までの流れをやっていきたいと思います。

この記事を作成するにあたった経緯ですが、私自身これまで、システムのインフラの保守、運用をメインに業務を実施していました。自社でDatabricksを扱う可能性があったため、Databricksの学習をどのようにして進めていったかを記録として残しておきたいと思ったためです。

私と同じように「これからDatabricksを触ってみたい」という方に少しでも参考になればと思います。
この記事では、手順などは記載せず大まかな概要を記載しておきたい思います。

今回実施したこと

全体の流れは以下の通りです。

・データ収集（スクレイピング）
　野球成績サイトから最新の成績データを取得します。

・AWS S3に保存
　取得したデータをS3バケットに保存し、Databricksからアクセスできるようにします。

・Databricksでデータ分析
　SQLやPySparkでデータを加工・可視化し、簡単な予測モデルも作ってみます。
　※今回は2025年の9月時点の成績から、各選手の最終成績を予測するものを作成してみました。

・ジョブで自動化
　データ取得から分析までをスケジュール実行し、定期的に更新できる形にします。

筆者のスキル

・Databricksはハンズオンや他のQiitaの記事で学習済み（Databricksの基本的な操作は経験済み）
・Pythonの文法を少し知っている（Pythonソースが分かるくらい、筆者は開発をほとんどしたことはありません）
・SQLを少し触ったことがある（SELECT、WHERE、GROUP BY程度）

今回のテーマ

この記事では、以下を扱います。

・Databricksとは
・Databricksの基本操作の学習方法について
・使用したツール・サービスの紹介
・実施環境の全体像
・Databricksで加工、可視化したもの

Databricksとは何なのか？

公式のページには以下のように記載されています。

Databricks とは

Databricks は、エンタープライズレベルの大規模なデータ分析やAIソリューションを構築、デプロイ、共有、保守するための統合されたオープンな分析プラットフォームです。Databricksデータインテリジェンスプラットフォームは、クラウドアカウントのクラウドストレージとセキュリティと統合し、クラウドインフラストラクチャを管理およびデプロイします。

正直私は上の文章をみてもよくわからなかったので、自分の言葉で簡単に表すとこんな感じかなと思っています。

Databricksは「データを集める・整理する・分析する・AIモデルを作る・結果を共有する」をひとつの場所で完結できるサービスです。
これまでバラバラだった「データの保存場所」「処理基盤」「分析ツール」「可視化ツール」をまとめて扱えるので、データ活用をスムーズに進められるもの。

正確にとらえられているかはわからないですが、大きくは外れていないと思っています。

Databricksの基本操作の学習方法ついて

私は同じ会社の方が書いていただいた記事と公式のチュートリアルでまずDatabricksの基本操作を学びました。

まだ、Databricksをふれたことがない方は参考にしてみてください。こちらやっていただくと基本的な操作は把握できると思います。（きっちりやると3日～5日くらいかかると思います）

また、こちらの記事では自社環境で実施されているものとなっていますが、Databricksは無料トライアルを利用することが可能です。

利用期間や機能には制限がありますが、トライアル環境と上の記事で基本操作は学ぶことができると思います。

今回使用したツール・サービスの紹介

今回の使用した主なサービスと役割は以下の通りです。
※AWSを使用しています

サービス/ツール	役割
Python	データ取得（スクレイピング）、前処理
AWS EC2	スクレイピングスクリプト実行環境
AWS S3	データの保存場所
AWS IAM	DatabricksからS3にアクセスするためのロールを作成します
Databricks	データ分析・可視化・モデル構築
Unity Catalog	Databricks内でのデータ管理