More than 1 year has passed since last update.

lightgbmで多クラス分類を試す

Posted at 2023-04-16

はじめに

この記事はlightgbmを使って多クラス分類を試してみたい方にむけた内容となっています。notebook環境で公開データセットを使ってコマンドのみで実行できるようにしています。

ligthgbmとは

2017年にMicrosoft社によって開発された高速、軽量に動作する機械学習ライブラリです。勾配ブースティングをベースにしたモデルで、特徴量の重要度の計算、欠損値の扱いを自動で行い、回帰・分類問題にも対応したアルゴリズムです。類似のアルゴリズムとしてxgboostやcatboostと比較されますが、大規模なデータセットや高次元データに対して効果的に学習することができます。

データセット

UCI Machine Learning Repositoryから白ワインの品質に関するデータセットを使用します
https://archive.ics.uci.edu/ml/datasets/Wine+Quality
こちらのデータセットは11個の特徴量(固定酸度、揮発性酸度、クエン酸、残糖、塩化ナトリウム、遊離二酸化硫黄、総二酸化硫黄、密度、pH、硫酸カリウム、アルコール度数)からワインの品質を7段階で予測するものになっています。

ライブラリとデータのインポート

# ライブラリのインポート
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import lightgbm as lgb
import matplotlib.pyplot as plt

次にデータの読み込みを行います

data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv'
df = pd.read_csv(data_url, sep=';')
df

読み込んだデータのデータ型の確認を行います。

df.dtypes

# 実行結果 -> 
fixed acidity           float64
volatile acidity        float64
citric acid             float64
residual sugar          float64
chlorides               float64
free sulfur dioxide     float64
total sulfur dioxide    float64
density                 float64
pH                      float64
sulphates               float64
alcohol                 float64
quality                   int64
dtype: object

欠損値の確認を行います。

df.isnull().sum()

# 実行結果 -> 
fixed acidity           0
volatile acidity        0
citric acid             0
residual sugar          0
chlorides               0
free sulfur dioxide     0
total sulfur dioxide    0
density                 0
pH                      0
sulphates               0
alcohol                 0
quality                 0
dtype: int64

教師データとなるワインの品質のラベルについて確認します。

df['quality'].value_counts()

# 実行結果 -> 
6    2198
5    1457
7     880
8     175
4     163
3      20
9       5
Name: quality, dtype: int64

plt.figure(figsize=(10, 6))
plt.hist(df['quality'], bins=6)
plt.show()

データのヒストグラムを見ますと3から9までの数字になっています。lightgbmは教師データのラベルが0開始である必要があるため、学習時に修正する必要があります。
また、教師データの偏りが非常に大きいことが確認できます。多クラス分類における不均衡データの学習にはラベル数が少ないデータの学習が不十分になる特徴があり、ダウンサンプリングなどの対応が必要になりますが、今回はこのままデータを使用します。

学習

lightgbmによる学習と予測を行います。データセット全体を学習データとテストデータに8:2の割合で分割して、学習データで学習したモデルからテストデータの予測を行い、正答率を表示します。

# 特徴量とラベルに分割
X = df.drop('quality', axis=1)
y = df['quality']

# クラスの値を調整
y -= 3

# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# LightGBM用のデータセットに変換
train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test)

# LightGBMのハイパーパラメータの設定
params = {
    'objective': 'multiclass', # 多クラス分類
    'num_class': 7, # クラスの数
    'metric': 'multi_logloss' # 損失関数にmulti_loglossを使用
}

# LightGBMモデルの学習
model = lgb.train(params, train_data, num_boost_round=1000, valid_sets=[train_data, test_data], early_stopping_rounds=10)

# テストデータでの予測
y_pred = model.predict(X_test)
y_pred_class = np.argmax(y_pred, axis=1) + 3 # 予測結果のクラスの値を調整
y_test += 3 # テストデータのクラスの値を調整
# 精度の評価
accuracy = accuracy_score(y_test, y_pred_class)
print('Accuracy:', accuracy)

# 実行結果 -> 
Accuracy: 0.6357142857142857

およそ63.57%の正答率となりました。
予測結果に寄与した特徴量の重要度を表示します。

plt.figure(figsize=(10,6))
lgb.plot_importance(model)
plt.show()

重要度の数値から予測結果に寄与する特徴量間の比較ができます。

まとめ

白ワインのデータセットからワインの品質を評価する多クラス分類問題についてlightgbmを用いて予測しました。正答率は63.57%となりました。今回はベースラインとして基本的な予測モデルを作成しました。
さらに予測精度を上げる方法として、データの前処理で不均衡データに対する方法やデータ拡張、半教師あり学習を用いたハイブリッドな手法、パラメータチューニングなど試せることはたくさんありますので、続きの記事を書いていきたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up