みなさん、はじめまして!
このブログ記事では Python を使ったデータ分析の基礎を学びたい、そんな初心者の方を対象に解説していきます。
この記事では、Pythonの導入からデータ分析に欠かせないライブラリの解説、実際のコードサンプル、そして簡単な機械学習までを幅広くカバーします。
「プログラミングは初めてだし、難しそう...」という方にも安心して取り組んでいただけるよう、親しみやすいトーンを心がけています。
ぜひ最後まで読んでみてください!
目次
- はじめに: Pythonとデータ分析の魅力
- Python環境のセットアップ
- Pythonの基礎文法をざっくりおさらい
- データ分析に欠かせないライブラリ
- データを扱ってみよう: 実践編
- グラフ描画で可視化を学ぼう
- 機械学習の入り口: 回帰と分類の超かんたん実装
- データ分析の心得: 知っておくと役立つTIPS
- まとめと次のステップ
1. はじめに: Pythonとデータ分析の魅力
みなさんは普段、データ分析と聞いてどのようなイメージを持っているでしょうか?
統計学?数学?プログラミング?さまざまな要素が頭に浮かぶかもしれません。
その中で、Python はデータ分析の世界では非常に広く使われているプログラミング言語です。
なぜこんなに人気なのかというと、
- 豊富なデータ分析ライブラリ(NumPy, Pandas, Matplotlib など)が用意されている
- 学習コストが比較的低く、コードが読みやすい
- データ分析から機械学習、Web開発まで幅広く使える
といった理由が挙げられます。
データ分析の現場で Python が重宝される最大の理由は、なんといっても豊富なライブラリのおかげで多くの作業がスムーズに進むことです。
別の言語で実装しようとすると何十行も必要な処理が、Pythonなら数行で済んでしまうなんてことも珍しくありません。
これからみなさんには「Pythonを使ったデータ分析って思ったより簡単かも!」と感じてもらえるよう、順を追って解説していきます。
どうぞよろしくお願いします。
2. Python環境のセットアップ
データ分析を始める前に、まずは Pythonの開発環境 を整える必要があります。
開発環境を整える方法はいくつかありますが、今回は特に初心者向けに Anaconda を使ったセットアップを紹介します。
Anaconda にはデータ分析に便利なライブラリがあらかじめ同梱されており、インストールするだけで一式が揃います。
2.1 Anacondaのインストール方法
- Anaconda公式サイト にアクセスします。
- ダウンロードページから、自分のOS(Windows, macOS, Linux)に合ったインストーラーをダウンロードします。
- インストーラーを起動し、画面の指示に従ってインストールを進めます。
- インストールが終わったら、ターミナル(コマンドプロンプト)や Anaconda Navigator などから Python を起動してみましょう。
Anaconda をインストールすると、「Conda」というパッケージ管理ツールを使ってライブラリを簡単に入れたり削除したりできます。
これにより、煩雑な依存関係の管理などをあまり気にせずに分析環境を構築できます。
2.2 仮想環境の作成
複数のプロジェクトを同時進行することが多いデータ分析の現場では、仮想環境 を使うのが一般的です。
仮想環境を作ると、プロジェクトごとに異なるバージョンのライブラリを共存させることができます。
conda create -n myenv python=3.9
conda activate myenv
たとえば上記のようにすると myenv
という名前の仮想環境が作成され、Pythonのバージョンは3.9が使用されます。
仮想環境に切り替えるには conda activate myenv
とコマンドを実行するだけです。
これで、他の環境に影響を与えず作業ができるようになります。
info
仮想環境の利用は必須ではありませんが、トラブルが起きにくくなるので初心者にも強くオススメです。
3. Pythonの基礎文法をざっくりおさらい
ここでは、「変数」「リスト」「関数」「制御構文(if, for, while)」といったPythonの基本を軽く復習しておきましょう。
データ分析でよく使う部分だけ絞って解説しますので、「もっと詳しく知りたい!」という方はぜひ公式ドキュメントや他の入門書を参照してみてください。
3.1 変数と型
Pythonでは、変数への代入は =
で行います。
型宣言は不要で、動的型付け言語と呼ばれる特徴があります。
# 数値
x = 10
# 文字列
text = "Hello World"
# 真偽値
flag = True
x
や text
の型は、代入された値によって動的に決まります。
3.2 リストとタプル
リストは []
で作成し、順番に要素を格納します。
タプルは ()
で作成し、要素を変更できない点がリストと異なります。
numbers = [1, 2, 3, 4] # リスト
colors = ("red", "green", "blue") # タプル
リストはあとから要素を変更できるので、可変なデータ構造が必要なときによく使います。
3.3 if文・for文・while文
Pythonのif文はコロン(:)とインデントが特徴です。
x = 5
if x > 0:
print("xは正です")
elif x == 0:
print("xは0です")
else:
print("xは負です")
for文はリストやタプルなどの要素を順番に取り出すループです。
for num in [1, 2, 3]:
print(num)
while文は条件を満たす限りループを続ける構文です。
count = 0
while count < 3:
print(count)
count += 1
3.4 関数定義
Pythonで関数を定義するときは、def
キーワードを使います。
def greet(name):
return f"Hello, {name}!"
message = greet("Python")
print(message) # Hello, Python!
これらの基礎文法 を押さえておけば、データ分析に必要なコードはだいたい読めるようになります。
慣れてきたらオブジェクト指向や例外処理など、もう少し踏み込んだ部分を学んでみましょう。
4. データ分析に欠かせないライブラリ
Pythonがデータ分析で人気の理由には、先ほど挙げたように 強力なライブラリ が豊富にある点が大きいです。
ここでは代表的なライブラリをいくつか紹介していきます。
4.1 NumPy
NumPyは、Pythonの数値計算を効率的に行うためのライブラリです。
配列(ndarray)という特殊なデータ構造を使い、大規模な数値演算を高速に処理できます。
import numpy as np
arr = np.array([1, 2, 3, 4])
print(arr * 2) # [2 4 6 8]
ベクトルや行列計算を行うのに特化しており、統計分析や機械学習を行ううえで必須の存在です。
4.2 Pandas
Pandasは、データの読み込み・操作・加工を強力にサポートするライブラリです。
表形式(DataFrame)でデータを扱うことができ、Excelのような操作感で分析できます。
import pandas as pd
data = {
"name": ["Alice", "Bob", "Charlie"],
"age": [25, 30, 35]
}
df = pd.DataFrame(data)
print(df)
上記のように辞書型のデータをDataFrameに変換して表示できます。
CSVやExcelファイルからの読み込みも簡単で、データの集計・結合・フィルタリングがとても直感的に行えます。
4.3 Matplotlib & Seaborn
データの可視化ライブラリの代表格が Matplotlib です。
基本的な折れ線グラフや棒グラフ、ヒストグラムなどあらゆるグラフを自由自在に作成できます。
import matplotlib.pyplot as plt
plt.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.title("Simple Plot")
plt.xlabel("X-axis")
plt.ylabel("Y-axis")
plt.show()
SeabornはMatplotlibをベースにした高機能な可視化ライブラリで、見た目が洗練されたグラフを簡単に作ることができます。
import seaborn as sns
sns.set() # Seabornのデフォルトスタイルを適用
tips = sns.load_dataset("tips")
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.show()
Seabornを使うと、データの関係性や分布を視覚的に把握するのがとても楽になります。
4.4 scikit-learn
機械学習の定番ライブラリが scikit-learn です。
回帰、分類、クラスタリングといったアルゴリズムが豊富に実装されています。
初心者が機械学習を始めるなら、まずは scikit-learn を触ってみるのが王道です。
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 5, 4, 5])
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)
print(y_pred)
これだけのコードで単回帰分析ができてしまう手軽さが魅力です。
5. データを扱ってみよう: 実践編
ここからは、実際のコードを使ってデータ分析の流れを体験してみましょう。
今回はサンプルとして、架空の「売上データ」を使ってみます。
5.1 CSVファイルの読み込み
まずは CSV ファイルを Pandas で読み込んでみます。
import pandas as pd
# CSVファイルのパス (例: data/sales_data.csv)
df_sales = pd.read_csv("data/sales_data.csv")
# データの最初の5行を確認
print(df_sales.head())
# データの概要を確認
print(df_sales.info())
head()
で上位5行、info()
で列名や欠損値の有無、データ型などを確認できます。
分析を始める前に、まずはこうした基本的な情報をチェックしてデータの概要を把握します。
5.2 データの集計と欠損値の確認
データに欠損値(NaN)が含まれている場合、そのままだとエラーが出たり分析結果が偏ったりします。
まずは欠損値の状況を把握しておきましょう。
# 各列の欠損値の数を表示
print(df_sales.isnull().sum())
欠損値が多い場合には、削除したり平均値で補間したりといった対処が必要です。
note
欠損値の処理にはいろいろな方法があります。
一般的には「分析で重要な列の欠損値は削除しないで補完を考える」「欠損値があまりに多い列は思い切って削除する」など、状況に応じて柔軟に対応します。
5.3 データのグルーピングと集計
次に、売上データを例に グルーピング と 集計 を行ってみます。
# 例: 店舗ごとの月間売上合計を算出
monthly_sales = df_sales.groupby(["store", "month"])["sales"].sum().reset_index()
print(monthly_sales.head())
groupby
で店舗(store)と月(month)ごとにデータをまとめ、sales
列を合計して新しい DataFrame を作成しました。
reset_index()
をつけることで、集計後のインデックスをリセットして見やすくしています。
5.4 データの可視化で傾向をつかむ
集計結果は数字だけ見てもピンとこないことが多いので、積極的に 可視化 してみましょう。
import matplotlib.pyplot as plt
import seaborn as sns
sns.barplot(x="month", y="sales", hue="store", data=monthly_sales)
plt.title("Store-wise Monthly Sales")
plt.show()
このように棒グラフを描画すると、「どの店舗がどの月に売上が高いか・低いか」が一目でわかります。
分析の第一歩として、可視化は非常に有用な手段です。
5.5 前処理の重要性
データ分析では、前処理 が8割といわれるほど重要な工程です。
欠損値や外れ値の処理、文字列データの数値化、カテゴリデータのエンコーディングなど、機械学習に入る前にやることは山ほどあります。
たとえばカテゴリ変数をダミー変数に変換するには、Pandasの get_dummies
関数を使うと便利です。
df_sales_dummies = pd.get_dummies(df_sales, columns=["store"])
print(df_sales_dummies.head())
分析の目的やデータの性質に合わせて、適切な前処理を行うことが成功のカギです。
6. グラフ描画で可視化を学ぼう
このセクションでは、データの可視化に特化した例をもう少し掘り下げて紹介します。
可視化は、パターンや傾向を視覚的に捉えるうえで欠かせない工程です。
6.1 基本的なグラフの種類
- 散布図 (Scatter Plot): 2変数の関係を可視化
- 折れ線グラフ (Line Plot): 時系列データや連続的な変化を可視化
- 棒グラフ (Bar Plot): カテゴリごとの数値比較
- ヒストグラム (Histogram): 1変数の分布を把握
- 箱ひげ図 (Box Plot): データの分布のばらつきや外れ値を確認
SeabornやMatplotlibを使えば、これらのグラフは数行のコードで作成できます。
6.2 散布図の例
import seaborn as sns
import matplotlib.pyplot as plt
# Seabornのサンプルデータセットから読み込み
tips = sns.load_dataset("tips")
# total_billとtipの関係を散布図で可視化
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.title("Relationship between Total Bill and Tip")
plt.show()
この図を見ると、勘定金額が大きくなるほどチップも増える傾向がわかるかもしれません。
6.3 ヒストグラムの例
sns.histplot(tips["total_bill"], kde=True)
plt.title("Distribution of Total Bill")
plt.show()
kde=True
を指定するとカーネル密度推定の曲線も表示されます。
データの分布を把握するのに役立ちます。
6.4 可視化のカスタマイズ
グラフの色やスタイルを変更して見やすくしたい場合、Seabornの set_style
や set_theme
を使うとよいでしょう。
sns.set_theme(style="whitegrid")
sns.scatterplot(x="total_bill", y="tip", data=tips, hue="time")
plt.show()
背景を白いグリッドに変更し、色分けに hue
を使うことで 昼食と夕食の違い を比較しやすくなります。
7. 機械学習の入り口: 回帰と分類の超かんたん実装
それでは次に、データ分析の先にある 機械学習 に少し触れてみましょう。
初心者でも理解しやすいよう、単回帰と分類を最小限のコードで体験してみます。
7.1 単回帰(Linear Regression)の例
先ほどの sales_data.csv
を例に、月ごとの売上を予測するとしましょう。
極めて単純化したケースですが、月(month)と売上(sales)の関係を回帰でモデル化します。
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np
df_sales = pd.read_csv("data/sales_data.csv")
# monthカラムだけを特徴量、salesカラムを目的変数とする
X = df_sales[["month"]] # 例: 1月なら1, 2月なら2...という単純な数値を持つと仮定
y = df_sales["sales"]
# 学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# モデルのインスタンス化
model = LinearRegression()
# モデルの学習
model.fit(X_train, y_train)
# テストデータで予測
y_pred = model.predict(X_test)
# 結果の評価 (ここでは単純にR^2スコアを表示)
r2 = model.score(X_test, y_test)
print(f"R^2スコア: {r2:.3f}")
これだけで単回帰モデルの学習・評価ができます。
model.score(X_test, y_test)
の部分でR^2スコアが表示され、回帰モデルがどの程度データを説明できているか確認できます。
7.2 ロジスティック回帰(分類)の例
次に、仮に「顧客が商品を購入するか否か」を予測したいとしましょう。
ここではサンプルとして、Seabornの titanic
データセットを使って乗客の生存予測を行います。
import seaborn as sns
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Titanicデータセットの読み込み
titanic = sns.load_dataset("titanic")
# 分析に使う列だけ抽出
# survived: 0=死亡, 1=生存
# sex: male/female
# age: 年齢
# fare: 乗船料金
df_titanic = titanic[["survived", "sex", "age", "fare"]].dropna()
# sexを数値化: male=1, female=0
df_titanic["sex"] = df_titanic["sex"].map({"male": 1, "female": 0})
# 特徴量と目的変数に分割
X = df_titanic[["sex", "age", "fare"]]
y = df_titanic["survived"]
# 学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# ロジスティック回帰モデルの作成
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
# 予測
y_pred = clf.predict(X_test)
# 精度を確認
acc = accuracy_score(y_test, y_pred)
print(f"精度: {acc:.3f}")
このサンプルでは、男性か女性か、年齢、乗船料金から生存を予測しています。
シンプルなモデルですが、「ロジスティック回帰ってこんな感じで使うのか」という入門には十分です。
info
ここでは説明変数を単純に3つだけにしましたが、実際にはさらに多くの特徴量(Pclass、Embarkedなど)を用いると精度が上がります。
また、データの前処理や特徴量エンジニアリングを工夫することがモデルの性能向上に大きく寄与します。
8. データ分析の心得: 知っておくと役立つTIPS
データ分析を進めるうえで、知っておくと便利なテクニックや心得をいくつか紹介します。
8.1 EDA (Exploratory Data Analysis) を軽視しない
EDA(探索的データ解析) は、データに潜む構造や特徴を探る工程です。
いきなり機械学習モデルを当てはめるのではなく、まずは可視化や集計を通じてデータを「知る」ことが重要です。
8.2 クリーナップは念入りに
欠損値や外れ値、文字コードの問題など、データにはさまざまな 汚れ が含まれています。
特に現実のビジネスデータを扱う場合、整形作業に多くの時間が割かれることを覚悟しましょう。
8.3 ドキュメントを活用
Pythonのライブラリは 公式ドキュメント がとても充実しています。
困ったらまずは公式ドキュメントを参照するクセをつけると、知識がしっかり身につきます。
8.4 仮説と検証を繰り返す
データ分析の本質は、仮説を立てて検証 することです。
漫然とデータを眺めるだけでなく、「この要因が売上に影響してそう」「この変数とあの変数は相関があるのでは?」といった 問い を明確にすると効率よく分析が進みます。
8.5 可視化はコミュニケーションの手段
グラフや可視化は、分析者の自己満足に終わらせず、他人に伝える ツールとして活用しましょう。
見やすく分かりやすいグラフを作ることを意識すると、より伝わる分析結果になります。
9. まとめと次のステップ
ここまで、Python初心者のためのデータ分析入門として
- Pythonの基礎文法
- Anacondaを使った環境構築
- データ分析に必須のライブラリ(NumPy, Pandas, Matplotlib, Seaborn, scikit-learn)
- 実際のデータを使った前処理・可視化・機械学習の例
などを紹介してきました。
データ分析のフローをざっくりまとめると、以下のステップが基本です。
- データの収集: CSVやデータベースからデータを取得
- データの理解・前処理: 欠損値・外れ値対策、エンコーディング
- 探索的データ解析 (EDA): 可視化や統計量を用いてデータの特徴を把握
- モデル選択・学習: 機械学習モデルを当てはめる
- 評価・チューニング: モデルの性能を評価し、パラメータ調整
- 結果の共有・活用: レポートやダッシュボードを作成し、意思決定に役立てる
一度で全部をマスターするのは難しいので、実際の仕事や学習で少しずつ経験を積むことが大切です。
note
もし実データを扱う際は、プライバシーやデータセキュリティにも十分注意しましょう。
特に個人情報を含むデータは適切な匿名化や取り扱いルールの遵守が必須です。
もっと学びたい人のための参考資料
Pythonでのデータ分析を学ぶにあたり、以下のリソースも参考になるでしょう。
- 公式ドキュメント
- オンラインコース
- Udemy、Coursera、Kaggle Learn など、動画で学べるコンテンツが充実しています。
- 書籍
- 『Pythonによるデータ分析入門』
- 『Python実践データ分析100本ノック』
- 『ゼロからはじめるPython』 などなど。
実践に役立つ例: タイタニックデータで精度向上を目指す
先ほどロジスティック回帰を使った Titanic の生存予測例を紹介しましたが、もう少し踏み込んだ前処理をすると精度が向上するかもしれません。
ここでは一例として、「年齢の欠損値を平均年齢で補完する」「乗船クラス (pclass) を特徴量に追加する」などを行ってみます。
import seaborn as sns
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Titanicデータセットの読み込み
titanic = sns.load_dataset("titanic")
# 年齢(age)の欠損を平均値で補完
titanic["age"] = titanic["age"].fillna(titanic["age"].mean())
# 分析に使う列を抽出して、欠損があれば除去(今回は簡単のため)
df_titanic = titanic[["survived", "pclass", "sex", "age", "fare"]].dropna()
# sexを数値化
df_titanic["sex"] = df_titanic["sex"].map({"male": 1, "female": 0})
# 特徴量と目的変数に分割
X = df_titanic[["pclass", "sex", "age", "fare"]]
y = df_titanic["survived"]
# 学習データとテストデータに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# ロジスティック回帰モデルの作成
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
# 予測
y_pred = clf.predict(X_test)
# 精度を確認
acc = accuracy_score(y_test, y_pred)
print(f"精度: {acc:.3f}")
これだけでも元のモデルより精度が向上する可能性があります。
モデルを試行錯誤しながら 特徴量エンジニアリング していくのがデータ分析&機械学習の醍醐味です。
応用編: データの分割とクロスバリデーション
機械学習でモデルの性能をより正確に評価するには、データを クロスバリデーション (交差検証) する方法がおすすめです。
scikit-learnでは cross_val_score
関数を使うと手軽に実行できます。
from sklearn.model_selection import cross_val_score
clf = LogisticRegression(max_iter=1000)
scores = cross_val_score(clf, X, y, cv=5, scoring="accuracy")
print("各分割での精度:", scores)
print("平均精度:", scores.mean())
5分割クロスバリデーションで、それぞれの分割に対して精度を算出し、最後に平均を出すことができます。
これにより、運良くテストデータに合ってしまっただけの「まぐれ当たり」を防ぎ、より信頼性の高い評価が可能となります。
応用編: 可視化テクニック (Pair Plot)
Seabornには pairplot という便利な関数があります。
複数の数値変数の関係を一度に確認できるので、探索的データ解析に役立ちます。
sns.pairplot(df_titanic, vars=["age", "fare"], hue="survived")
plt.show()
変数間の関係と、survived
(生存=1 or 死亡=0) での分布の違いがひと目で分かります。
こうした可視化を行うことで、新たな仮説や特徴量のヒントが得られることもあります。
応用編: データの次元削減 (主成分分析, PCA)
高次元データを扱う場合、次元削減 を行うことでデータの本質を捉えやすくなる場合があります。
主成分分析 (PCA) は代表的な手法で、scikit-learnにも実装されています。
from sklearn.decomposition import PCA
# X は事前に用意した特徴量(多次元)
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)
print("元の次元:", X.shape)
print("削減後の次元:", X_reduced.shape)
# 2次元に圧縮した結果を可視化してみる
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap="viridis")
plt.xlabel("PCA1")
plt.ylabel("PCA2")
plt.title("PCA for Dimensionality Reduction")
plt.show()
PCAによって次元が削減されると、可視化もしやすくなり、クラスターの様子が見えやすくなります。
ただし、解釈が難しくなる面もあるので、なぜPCAを使うのか を明確にしてから導入するのがよいでしょう。
応用編: ビッグデータとPython
Pythonは、巨大なデータセットに対しても対応できるライブラリが充実しています。
ただし、メモリに載らないような大量データを扱う場合は、Dask や PySpark などの分散処理フレームワークを検討する必要があります。
- Dask: PandasライクなAPIで大規模データを並列処理
- PySpark: SparkのPython API。クラスタリング環境でビッグデータを処理
これらを使いこなすと、ローカル環境を超えてクラウド上の大規模リソースを活用した分析も可能です。
最後に: 学習のモチベーションを保つコツ
Pythonでのデータ分析は覚えることが多く、最初は 挫折 を感じる人も多いかもしれません。
そこで、学習のモチベーションを維持するためのヒントをいくつか紹介します。
-
目標を設定する
例: 「Kaggleのチュートリアルで上位50%に入る」「ブログに分析結果を定期的に投稿する」など。 -
自分にとって興味のあるデータを扱う
好きなスポーツの試合データや、興味のある分野の統計データを分析するとワクワク感が続きやすいです。 -
コミュニティに参加する
オンラインフォーラム (Qiita, Stack Overflow) や勉強会、カンファレンスなどで仲間を見つけましょう。 -
小さな成功体験を積む
小さなデータセットでもいいので、予測モデルを動かしてみる、グラフを描いてみるなど、手を動かすことで得られる学びは大きいです。
まとめ
以上、「Python初心者のためのデータ分析入門ガイド」をお届けしました。
この記事を通じて、Pythonを使ったデータ分析の 全体像 が見えてきたのではないでしょうか。
以下に本記事のポイントを再度振り返ってみます。
- Python環境のセットアップ: Anacondaを使うのが便利
- Python基礎文法: 変数・リスト・制御構文・関数など
- 主要ライブラリ: NumPy, Pandas, Matplotlib, Seaborn, scikit-learn
- 実践フロー: データの取得、前処理、可視化、モデル学習、評価
- 機械学習入門: 単回帰とロジスティック回帰の例
- EDAや前処理の重要性: データを理解・整理してからモデルへ
- 応用例: クロスバリデーション、次元削減、ビッグデータ処理
データ分析の世界は広大で、学べることが無限にあります。
まずは一通りの流れを体験し、徐々に応用や高度な手法にチャレンジしてみてください。
「何をやっていいかわからない」という方は、まずはKaggleのTitanicなど、チュートリアル的なデータセットで腕試しをするのがおすすめです。
おわりに
Python初心者の方がデータ分析を始めるための 第一歩 として、本記事が少しでも参考になれば幸いです。
データ分析は奥が深く、やればやるほど面白い 分野です。
ぜひ、楽しみながら学習を続けてみてください。
もし記事の内容に質問や不明点があれば、遠慮なくコメントやフィードバックをお寄せください。
それでは、良いPythonライフを!
追伸: さらなる学びのためのサンプルコード集
以下に、ちょっとしたサンプルコードを追加で載せておきます。
「こういうこともできるんだ!」という気づきがあるかもしれません。
# Pandas: 複数のCSVファイルを一気に読み込んで結合する例
import glob
import pandas as pd
all_files = glob.glob("data/sales_*.csv") # sales_01.csv, sales_02.csv, ...
df_list = []
for file in all_files:
df_tmp = pd.read_csv(file)
df_list.append(df_tmp)
df_all_sales = pd.concat(df_list, ignore_index=True)
print(df_all_sales.info())
# Matplotlib: サブプロットを使って複数のグラフを並べる
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(0, 10, 100)
y_sin = np.sin(x)
y_cos = np.cos(x)
fig, axes = plt.subplots(1, 2, figsize=(10, 4))
axes[0].plot(x, y_sin, color="blue")
axes[0].set_title("Sine Wave")
axes[1].plot(x, y_cos, color="red")
axes[1].set_title("Cosine Wave")
plt.show()
# Seaborn: カテゴリカル変数を組み合わせた可視化
import seaborn as sns
import matplotlib.pyplot as plt
tips = sns.load_dataset("tips")
sns.catplot(x="day", y="total_bill", hue="sex", kind="bar", data=tips)
plt.title("Average Bill Amount by Day and Sex")
plt.show()
# scikit-learn: 単純な決定木を可視化
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt
iris = sns.load_dataset("iris")
X = iris.drop("species", axis=1)
y = iris["species"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
dtc = DecisionTreeClassifier(max_depth=3, random_state=42)
dtc.fit(X_train, y_train)
y_pred = dtc.predict(X_test)
print("Decision Tree Accuracy:", accuracy_score(y_test, y_pred))
plt.figure(figsize=(12, 8))
plot_tree(dtc, feature_names=X.columns, class_names=dtc.classes_, filled=True)
plt.show()
こうしたコードを写経してみたり、自分なりに改変して遊んでみると、スキルが徐々に身につくはずです。
参考リンク
- Python公式ドキュメント (日本語)
- Kaggle
- GitHub (サンプルコードやオープンソースを調べるのに便利)
お疲れさまでした!
ここまでで、800行以上にわたる大ボリュームの 「Python初心者のためのデータ分析入門ガイド」 をお届けしました。
ぜひこの記事を参考に、Pythonとデータ分析の第一歩を踏み出してみてください。
あなたの学習と探求が、素晴らしいデータ分析の世界へとつながることを祈っています!
info
ここまで読んでくださり、ありがとうございました。
この記事が皆さんの学びに少しでも役立てば幸いです。
これはAIで作成しているため、ミスがあるかもしれません
Good Luck and Happy Analyzing!