0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

pythonでスキャン画像のカラーページ判定

Posted at

概要

※ プログラムは https://github.com/rennone/is_color_page に上がっています。
本の自炊をやっておりまして、かれこれ1000冊以上の本(主に漫画)を電子化しました。
PDFのサイズとかタブレットで読みやすくする関係上、白黒ページはグレースケール化してコントラストかけたりしています。

そこを自動化するために、スキャンした画像がカラーページなのか白黒ページなのか判定する処理を実装しました。
(まあスキャナに自動判別はあるんですが、原本データはあくまでカラーでとっておきたいのです)

結論から言うと, python + SVMで簡単で割と精度の高い結果になりました。
実装の際に https://qiita.com/kazuki_hayakawa/items/18b7017da9a6f73eba77 を参考にさせていただきました。ありがとうございます。

import sklearn
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
import cv2
import numpy as np

class IsColorPageSVM:
    def __init__(self, kernel='linear', random_state=None):
        self.svm = SVC(kernel=kernel, random_state=random_state)
        self.scaler =  StandardScaler() 

    def learn(self, vec_array, label_array, test_size=0.3, random_state=None):
        # 訓練データとテストデータに分離する
        vec_train, vec_test, label_train, label_test = sklearn.model_selection.train_test_split(vec_array, label_array, test_size=test_size, random_state=random_state )

        # データの標準化処理
        self.scaler.fit(vec_train)
        # モデルの学習
        self.svm.fit(self.scaler.transform(vec_train), label_train)

        # 訓練データとテストデータの正解率を返す
        return self.test(vec_train, label_train), self.test(vec_test, label_test)

    # テストデータと答えを渡すと正解率を返す
    def test(self, vec_array, label_array):
        vec_array_std   = self.scaler.transform(vec_array)
        pred_train        = self.svm.predict(vec_array_std)
        return sklearn.metrics.accuracy_score(label_array, pred_train) 

なぜSVMなのか

2クラス分類に特化していて精度が高いらしいからです。
あとはpythonですぐできそうだったからぐらいの理由です。流行りのディープラーニングとか使えばまた違う結果になるかも

データ形式

画像データをそのまま突っ込むと画像によって次元数がバラバラなので変換処理をかけます。
128*128にReshapeとかでもいいかもですが、カラー判定だともっと少なくていいだろうという事調べたところ。
教えてgoo に以下のような投稿がありました。

cvAvgSdvを用いてHSV各要素の標準偏差を算出してみました。
そうしたところ、手持ちのイメージで試した限りですが、
彩度(S)が大体以下のようになりました。
  カラー:単色の多いもので約40~50。通常そうに見えるもので80以上、100オーバー。
  白黒 :20前後。
  黄ばみ:20~30前後。※あまりサンプルなかったのでそれなりですが
これから、30~40あたりを閾値にすることで判定できそうです。

じゃあ機械学習とかしなくても、これで判断すればいいじゃんって話になるかと思います。
自分もそう思って手持ちの画像で試してみたところ、大体あっているのですが、あまりに焼けすぎているページがカラー判定されて、かといって閾値を上げると逆に微妙なカラーページが白黒判定されるといった問題がありました。
そうなると、色相とかも含めて判断する必要があるし、閾値も目分量で判断するのは無理!ってなったので機械学習させようってなった背景です。

というわけで、画像をHSV形式に変換し,HSV全部の標準偏差出して, ついでに平均値/最大値/最小値も加えてみて試してみます。

最終的に以下の12次元のベクトルをデータ形式としてテストしました。

(Hの標準偏差, Sの標準偏差, Vの標準偏差, Hの平均値, Sの平均値, Vの平均値, Hの最大値, Sの最大値, Vの最大値, Hの最小値, Sの最小値, Vの最小値)

テスト方法

以下のようにカラーページ/白黒ページのデータを読み込み, 100回学習させた平均値を出しました。
その際, 12次元のベクトルのうち、どこまでが学習に寄与しているのかを計る意味も込めて, 一部の次元の抽出したうえでのテストも行いました

項目 内容
環境 python 3.8
カラーページの学習データ数 267
白黒ページの学習データ数 267
試行回数 100

def main():
    # 2次元配列のcsvファイル読み込み
    color_vec_array = np.loadtxt('color_page.csv', delimiter=',')
    gray_vec_array = np.loadtxt('gray_page.csv', delimiter=',')
    # 白黒ページの学習データはカラー画像に対して多いので同じサイズにする
    gray_vec_array = gray_vec_array[: len(color_vec_array),:]

    # 1つの2次元配列にマージ    
    vec_array = np.append(color_vec_array, gray_vec_array, axis=0)

    # カラー画像のラベルは0, 白黒画像のラベルを1にする
    label_array = [0] * len(color_vec_array) +[1] * len(gray_vec_array)
    
    # i, j は抜き出すベクトルの次元
    for i in range(0,vec_array.shape[1]):
        for j in range(i+1,vec_array.shape[1] + 1):
            train_score, test_score = 0.0, 0.0
            # 100回訓練した結果の平均をとる
            test_num = 100
            print('{0:2}:{1:2}要素のデータ'.format(i, j), end='  ')
            for n in range(test_num):
                data_list = vec_array[:,i:j]
                model = IsColorPageSVM()                    
                train, test = model.learn(data_list, label_array)
                train_score += train
                test_score += test
            print(u'正解率(訓練/テスト):{0:0.3} - {1:0.3}'.format(train_score/test_num, test_score/test_num))

if __name__ == '__main__':
    main()

結果

以下が抽出した次元ごとの正解率になります。次元数の項目は12次元のうちどこからどこまでの範囲を使ったかを表します(3:6番だと3番目の要素から6番の一つ前の要素までの3次元を使っているという意味)。
これを見るとSの標準偏差だけでかなりの正解率にはなっています. (その辺は↑のデータ形式で話した内容と合致)

テストデータの正解率1位なのは, 0:4データ(HSV要素の標準偏差 + Hの平均値)と3:9(HSVの平均値 + HSVの最大値)の99%でした。
意外なのは標準偏差を使っていない3:9番のスコアも1位タイの結果を出していることです(訓練データのスコアも1位なのでこれが最も良い結果)
これに関しては、データ形式の章でも少し書きましたが単色のカラーページ(青一色のページとか)などもカラー判定させるように画像にラベリングしていたのでそれが原因かもしれません。

当然ですが, 最大値, 最小値のみや明度のみの情報はほぼ認識できてないです(2分類なので50%前後は実質ランダムと同じ)。最小値は黒いピクセルがあれば0になるだろうし,明度はカラーも白黒ページも関係ないので。

次元数 正解率(訓練データ) 正解率(テストデータ) 備考
0: 1 0.774 0.777 Hの標準偏差のみ
0: 2 0.958 0.96 H, Sの標準偏差
0: 3 0.97 0.968 H, S, Vの標準偏差
0: 4 0.99 0.99 (1位タイ) H, S, Vの標準偏差, Hの平均値
0: 5 0.99 0.987 H, S, Vの標準偏差, H, Sの平均値
0: 6 0.991 0.984 H, S, Vの標準偏差, H, S, Vの平均値
0: 7 0.991 0.985 H, S, Vの標準偏差, H, S, Vの平均値, Hの最大値
0: 8 0.993 0.986 H, S, Vの標準偏差, H, S, Vの平均値, H, Sの最大値
0: 9 0.996 0.989 H, S, Vの標準偏差, H, S, Vの平均値, H, S, Vの最大値
0:10 0.995 0.988 H, S, Vの標準偏差, H, S, Vの平均値, H, S, Vの最大値, Hの最小値
0:11 0.995 0.986 H, S, Vの標準偏差, H, S, Vの平均値, H, S, Vの最大値, H, Sの最小値
0:12 0.995 0.987 全要素
1: 2 0.953 0.952 Sの標準偏差のみ
1: 3 0.968 0.964
1: 4 0.99 0.987
1: 5 0.989 0.989
1: 6 0.991 0.986
1: 7 0.992 0.983
1: 8 0.992 0.988
1: 9 0.995 0.989
1:10 0.996 0.987
1:11 0.994 0.987
1:12 0.995 0.985
2: 3 0.602 0.588 Vの標準偏差のみ
2: 4 0.832 0.831
2: 5 0.928 0.92
2: 6 0.941 0.937
2: 7 0.943 0.935
2: 8 0.991 0.986
2: 9 0.994 0.988
2:10 0.994 0.989
2:11 0.994 0.987
2:12 0.994 0.986
3: 4 0.814 0.816 Hの平均値のみ
3: 5 0.925 0.925
3: 6 0.937 0.935
3: 7 0.938 0.939
3: 8 0.99 0.988
3: 9 0.994 0.99 (1位タイ) H, S, Vの平均値, H, S, Vの最大値
3:10 0.994 0.989
3:11 0.993 0.986
3:12 0.993 0.986
4: 5 0.772 0.775 Sの平均値のみ
4: 6 0.761 0.75
4: 7 0.762 0.754
4: 8 0.961 0.96
4: 9 0.97 0.964
4:10 0.97 0.961
4:11 0.975 0.964
4:12 0.981 0.97
5: 6 0.525 0.491 Vの平均値のみ
5: 7 0.529 0.492
5: 8 0.961 0.954
5: 9 0.969 0.962
5:10 0.969 0.964
5:11 0.974 0.966
5:12 0.982 0.971
6: 7 0.516 0.477 HVの最大値
6: 8 0.957 0.961
6: 9 0.97 0.963
6:10 0.969 0.964
6:11 0.973 0.966
6:12 0.98 0.969
7: 8 0.961 0.957 Sの最大値のみ
7: 9 0.97 0.965
7:10 0.968 0.969
7:11 0.973 0.97
7:12 0.978 0.968
8: 9 0.521 0.487 Vの最大値のみ
8:10 0.522 0.484
8:11 0.533 0.493
8:12 0.903 0.897
9:10 0.512 0.477 Hの最小値のみ 
9:11 0.518 0.477
9:12 0.896 0.891
10:11 0.518 0.481 Sの最小値のみ
10:12 0.895 0.891
11:12 0.894 0.894 Vの最小値のみ

今後の予定

カラー判定に関しては今後やるとしたら, 画像データをreshapeしてそのまま使う形式と他のディープラーニングとかの他の手法で試してみるぐらいかな。
あとは、小説の挿絵か文章ページかを判断したいとも考えているのでそれもやるかも(てか同じような感じでそこそこ結果出たので書くかもしれません)
以上になります。最後まで読んでいただきありがとうございました。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?