1. はじめに
1.1. 記事の概要
今までテーブルデータをメインとして分析をしていたが非構造化データにも触れておきたかったため、非構造化データのなかでもライブラリや参考文献も豊富である画像解析に取り組んだ。
SIGNATEのSOTAコンペである産業技術総合研究所 衛星画像分析コンテストに参加したため、本記事ではその際に使用した分析手法や参加結果の概要を記載する。
なお、本分析にて使用したコードはGoogle Colaboratryにて公開している。
1.2. 画像認識とは
-
概要
-
活用事例
1.3. コンペ概要
-
コンペ名: 産業技術総合研究所 衛星画像分析コンテスト
-
データ
- エリア: 日本国内全域および海外7エリア
- 大きさ: 32px x 32px x 7チャネル(Landsat8に搭載されているセンサーにより観測)
- 分解能: 1pxあたり30m
※通常の画像データ(RGBの3チャネル)と比べてチャネル数が多いのが特徴
-
タスク: 画像における総面積の5%以上をゴルフ場が占めるかどうかを識別する2値分類タスク
-
ラベル
-
評価指標
数式: $IoU = \frac{TP}{FN+FP+TP}$
負例が多い不均衡データを扱うためAccuracyを評価指標にするとすべて負例と予測しても精度が高くなってしまうためIoUを用いるラベル/予測値 ゴルフ場 ゴルフ場以外 ゴルフ場 TP(True Positive)
ゴルフ場を正しくゴルフ場と予測した数FN(False Negative)
ゴルフ場を誤ってゴルフ場以外と予測した数ゴルフ場以外 FP(False Negative)
ゴルフ場以外を誤ってゴルフ場と予測した数TN(True Negative)
ゴルフ場以外を正しくゴルフ場以外と予測した数
1.4. 環境・使用ツール
- Google Colaboratory
- Pytorch
2. EDA
2.1. 配布データ
学習データとテストデータの圧縮ファイル計7ファイルに加え学習データの概要が記載されたマスタファイル
ファイル名 | 説明 |
---|---|
train_1.zip | 学習データ1 |
train_2.zip | 学習データ2 |
train_3.zip | 学習データ3 |
test_1.zip | テストデータ1 |
test_2.zip | テストデータ2 |
test_3.zip | テストデータ3 |
test_4.zip | テストデータ4 |
train_master.tsv | それぞれの学習データとラベルの対応表 |
2.2. データ探索
-
ファイル形式
画像データはすべてtif形式となっている
tiffファイルの特徴として、主要なOSすべてに対応しており高解像度の画像を保存するための形式として適していることがあげられる
-
基本情報の確認
pos_data = train_master.loc[train_master['flag']==1] neg_data = train_master.loc[train_master['flag']==0] print(f'データセット件数: {len(train_master)}') print(f'正例件数: {len(pos_data)}') print(f'負例件数: {len(neg_data)}') print(f'正例割合: {round(len(pos_data)/len(train_master)*100, 1)}%') ### 出力 # データセット件数: 296182 # 正例件数: 12442 # 負例件数: 283740 # 正例割合: 4.2%
学習データは約30万枚あり、正例画像は約4%(約12,000枚)とかなりの不均衡データとなっている
-
画像サンプル
各ラベルのサンプルデータを3枚ずつ表示
7チャネルを横に並べてそれぞれ表示しているが、正例サンプルにはゴルフコースらしきものが見える
※こちらにRGB(可視光)に絞った表示や植生の表示など様々な可視化を実装しているので参考までに
正例サンプル -
統計量
チャネルごとのピクセル統計量を出して正例と負例を比較
平均値や各パーセンタイル値に大きな違いは見られないが負例データではすべてのチャネルで最小値が0となっている
正例統計値
負例統計値
3. データセット作成
3.1. 前処理
-
目的
AIが認識しやすい形状に画像データを加工する
機械学習プロジェクトにおいては入力データの質が非常に重要となるため本項目と次項目のデータ拡張がカギとなる
データ拡張とは異なり学習データとテストデータの双方に適用する(後述) -
例
画像のサイズがばらばらであるため統一する
対象物の色が偏っているためグレースケールに変更する -
今回の実装
可視光(RGB)のみに絞り込む(※学習の高速化のため)
上記の統計量から最小値5000、最大値25000にクリッピング後に正規化
※マルチバンドに対応している画像処理ライブラリAlbumentationを使用
3.2. データ拡張
-
目的
データ数が少ない場合や偏りがある場合により頑健なモデル構築を行うために実装する
基本的に学習データのみに適用してテストデータには適用しない -
今回の実装
-
拡大や縮小をしてしまうとゴルフ場の大きさが変わりラベル自体が変わってしまう可能性があるため適用しない
-
最終的に実装したパイプラインは以下
⓵. 画像のふちをパディング->32x32サイズをランダムでくりぬき
※正例が少ないため水増しに使用
※パディングのサイズが大きすぎるとターゲット(ゴルフ場)が隠れてしまう可能性があるため注意
⓶. 90°区切りでランダムに回転
※1と同様に正例が少ないため水増しに使用
③. 指定の範囲でコントラスト変換->明度変換
※衛星画像は天候によって明暗が変わることや、テストデータには黒要素が多い画像が散見されたため適用
※マルチバンドに対応している画像処理ライブラリAlbumentationを使用
3.3. データセットクラスの作成
PyTorchのDatasetモジュールを用いて作成する
-
分割
学習データ約30万枚を以下のように訓練用、検証用、テスト用に分割(分割割合は7:2:1)
訓練用と検証用でモデル構築・改善を行いテスト用で精度を確認する
-
オーバー(アンダー)サンプリング
正例データが全体の5%未満しかない不均衡データであるため、正例データの特徴を正確にとらえたモデル構築ができるように訓練データは正例比率が20%となるよう水増しする
訓練フェーズで繰り返し同じ正例画像を読み込み、上述のデータ拡張を適用することで同じ元画像でも異なる正例画像とする
4. 分類モデル作成・提出
4.1. アルゴリズム
- ResNextやViTなど複数試行したが、学習時間の早さや精度の点から最終的にEfficientNetを採用
-
アーキテクチャ概要
- 従来のモデルよりパラメータが少ないため、計算コストを抑えながら精度を向上させることができる
- また、モデルを大きくすると精度は上がるがメモリに収まらなくなるという問題も解消される
- 層の数、チャネル数、解像度を同時に定数倍して増やすことで効率的なモデルのスケールアップを実現
- 以下図はモデル構造と精度比較(原論文より)
- 従来のモデルよりパラメータが少ないため、計算コストを抑えながら精度を向上させることができる
4.2. ハイパーパラメータ
-
ハイパーパラメータとは
AIモデルの学習により自動的に決まるパラメータとは対照的に人間が手動で決める必要がある設定値
適切に設定しておかなければ未学習や過学習の原因となる
計算資源が限られる環境においてはグリッドサーチ等で最適なハイパーパラメータの値を探し出すことは現実的ではないため、各ハイパーパラメータの概要を理解しておくことが重要となる -
主なハイパーパラメータ
以下のハイパーパラメータのうち今回はエポック数、バッチサイズ、学習率、最適化アルゴリズム、パラメータ荷重減衰をチューニング対象とするハイパーパラメータ 概要 補足 エポック数 学習を何回繰り返すか 大きくしすぎると学習時間の増加や過学習につながる バッチサイズ パラメータ更新に用いるデータ数 データセットの大きさに応じて調整 損失関数 目的変数と出力の差 Appendix参照 最適化アルゴリズム 損失関数を0に近づける手法 Appendix参照 学習率 パラメータの更新幅 1回の学習におけるパラメータの更新幅
大きすぎると収束せず、小さすぎると最適解にたどり着くまでに時間がかかりすぎるパラメータ初期値 パラメータの初期値 学習済みのものを使用 ドロップアウト 一定の割合でノードを不活性化させる(過学習の抑制) 既存モデルのものをそのまま使用 パラメータ荷重減衰 パラメータが大きくなりすぎることを防ぐ(正則化) 損失関数に罰則項を与える バッチ正規化 バッチごとに特徴量を正規化する 既存モデルのものをそのまま使用
5. 結果総括
5.1. 学習結果
ハイパーパラメータを変えながらモデル構築を行った結果を以下に示す
手元のデータでもSIGNATEへの提出結果でもモデル⓸が最も高い結果となった
バッチサイズを小さくし、学習率を低くすると汎化性能が高くなる傾向にあった
ハイパーパラメータ/モデル | ⓵EfficientNet M | ⓶EfficientNet L | ③EfficienNet L | ⓸EfficientNet L | ⑤EfficientNet L |
---|---|---|---|---|---|
エポック数 | 13 | 15 | 13 | 13 | 13 |
バッチサイズ | 256 | 256 | 256 | 128 | 1024 |
最適化アルゴリズム | SGD | SGD | Adam | SGD | SGD |
学習率 | 0.005 | 0.01 | 0.001 | 0.0025 | 0.0025 |
パラメータ荷重減衰 | 0.001 | 0.01 | 0.001 | 0.001 | 0.001 |
オーバーサンプリング | 正例比率20% | 正例比率20% | 正例比率20% | 正例比率20% | 正例比率20% |
結果 | |||||
検証用データIoU | 0.68 | 0.72 | 0.65 | 0.76 | 0.72 |
評価用データIoU | 0.68 | 0.73 | 0.60 | 0.75 | 0.71 |
SIGNATE提出結果 | 0.52 | 0.62 | 0.52 | 0.67 | 0.64 |
5.2. SIGNATE提出結果
Bronzeラインを超えることができた(2023年6月時点)
ハイパーパラメータの調整やデータセットの作成に苦心したおかげか過学習が抑制され汎化性能が高くなったと感じた
5.3. まとめ
-
成果
- 初めて画像解析に取り組んだが、SIGNATEコンペで一定の成果を出すことができた
- モデルの選定やハイパーパラメータのチューニングを通じて深層学習への理解が深まった
- PyTorchを用いた画像解析の基礎を習得できた
-
課題
- 画像解析プロジェクトではデータの収集や加工に大半の工程を割くことになると思うが、今回はコンペで配布されているデータを用いたこともありあまり時間がかからなかった
今後はデータの収集やラベリングを自ら行う必要があるテーマに取り組みたい - データ拡張の手法は今回実装したもの以外にも様々あるが、試し切れていない
精度向上や過学習抑制につながるものもあると思うのでさらに深堀していきたい
- 画像解析プロジェクトではデータの収集や加工に大半の工程を割くことになると思うが、今回はコンペで配布されているデータを用いたこともありあまり時間がかからなかった
Appendix
appx 1. 損失関数
- 損失とは
- 目的関数と出力値(予測値)の誤差を示す
- 深層学習では個の誤差が最も小さくなるようにパラメータを決定する
- 損失関数はこの誤差を算出するための関数
- PyTorchには様々な損失関数が搭載されているほか自作も可能
- 代表的な損失関数(y:正解, t:予測値, k:データ数)
- 2乗誤差(回帰): $\sum_k{(y_k-t_k)}^2$
- 交差エントロピー誤差(分類): $-\sum_k{(t_k\log y_k)}^2$
appx 2. 最適化アルゴリズム
-
最急降下法
- パラメータ更新式: $w_{t+1} = w_t - \alpha \delta_w L(w)$ $w_t$:更新t回目のパラメータ,$\delta_w$:微分,$\alpha$:学習率,$L(w)$:損失関数
- 更新手順
- パラメータ初期値をランダムに決定
- すべてのデータを用いて予測値を算出し、損失を計算
- 損失をパラメータで微分→パラメータ更新
- 上記を繰り返す(損失最小付近では微分値がほぼ0となるためパラメータが更新されなくなる→収束)
-
確率的勾配降下法(SGD)
- 最急降下法はデータをすべて用いているため計算量が多いことや局所会に陥りやすいことがあげられる
- SGDではパラメータ更新時にデータをランダムに使用することで上述の問題に対処する
-
モーメンタム
- パラメータ更新式: $w_{t} = w_{t-1} - \alpha v_t$
$v_t = \beta v_{t-1} + (1-\beta)\delta_w L(w)$
$w_t$:更新t回目のパラメータ,$\delta_w$:微分,$\alpha$:学習率,$L(w)$:損失関数, $v_{t-1}$:前回の勾配,$\beta$:ハイパーパラメータ(0~1) - 概要
- 1銅の更新が大きすぎると最小値にたどり着くのが遅くなるため、より早く効率的に最適解にたどり着くように勾配を調整する(更新式$v_t$部分)
- 移動平均($\beta$)を用いることで勾配に急激な変化が生じないようにする
- パラメータ更新式: $w_{t} = w_{t-1} - \alpha v_t$
-
RMSProp
- パラメータ更新式: $w_{t} = w_{t-1} - \frac{\alpha}{v_t+\epsilon}\delta_w L(w)$
$v_t = \beta v_{t-1} + (1-\beta)(\delta_w L(w))^2$
$w_t$:更新t回目のパラメータ,$\delta_w$:微分,$\alpha$:学習率,$L(w)$:損失関数, $v_{t-1}$:前回の勾配,$\beta$:ハイパーパラメータ(0~1),$\epsilon$:ゼロ除算を避けるために使用 - 概要
- 更新幅が大きいときの学習率を低下させることで振動を抑える
- 勾配を2乗することで正負に関わらず振動が大きい際に学習率を抑える
- パラメータ更新式: $w_{t} = w_{t-1} - \frac{\alpha}{v_t+\epsilon}\delta_w L(w)$
-
Adam
- モメンタムとRMSPropの組み合わせ