この記事では.
GCPでクラウドサービスの勉強しようと思っていたが,全く無料枠を使い果たすことなく過ごしていた..
AutoMLに興味がある今日このごろでして,リソース使ってやるぜ!週末くらいは好きなことしてやるぜ!
という感じで欅坂の顔認識できるのかを試してみました.
(ちなみに欅坂は申し訳ないが数名しか知らない.今回を気に少し勉強しました.)
画像を準備
wikiで調べると27名のメンバーがいることを知った..46じゃないんだ..
6名(石森虹花,織田奈那,佐藤詩織,長濱ねる,土生瑞穂,平手友梨奈,渡辺梨加)に絞りました.
クローリングよりまず100枚ずつくらいデータを取得します.
ここは画像クローリングでググりソースをコピペして検索名を指定するだけです.
ノンコーディングってことですが,ここは流石に画像一枚ずつ保存するのは厳しいです..
(ただ自分でコード書いてないので..)
取得はできたが..結構集合写真などもあり結構削ってしまった.
一人あたり50-80枚.写真は[ADD IMAGES]から一人ずつアップロードできます.フォルダ名でラベリングできたら一括でアップロードできるのにと思いながら一人ひとりアップロードしました.
訓練
訓練に必要な推奨最低枚数の100枚に届かないが一度訓練してみました.
結果は散々..まあそうですよね..
'平手友梨奈'が正答率高いけど他の人も引きづられている.元の数が少なすぎるので..
データ数を増やして再学習
一人あたり100-200程度集めた.(ちなみに,初めて事務作業が楽しいと感じたwこれならいくらでもできるw)
正答率が自分自身のときが一番になった.'平手友梨奈'がここでも一番正答率が高い.
'織田奈那'が全員から間違われている.みんなと特徴が似ているのかデータが悪いのか.削ってみよう
’長濱ねる’が自分自身より,他のメンバーだとご認識するようになってしまった.全体から一番特徴が近い(間違われやすい人)を省けば正答率が上がるという直感と離れた結果になっている.やはりデータが悪い気がしてきた.
(確かに,犬猫判別のデータセットも2分類なのに千枚単位でデータが必要だから当然な気がする.)
ただ,'平手友梨奈'が間違われにくいのは,他のメンバーに比べてアンニュイというかボーイッシュというか男前?なのが特徴として出ているからだろうか.
2値分類にしてみる
これだとデータ数をあわせないと微妙化..
こういうデータをそのまま上げたのが精度悪い原因でもあったっぽいな..反省..
切り取って4枚にしたりもしたけどたまにサボったりもした.その際に画素数が悪い場合もあったけどそういうのもあるっぽいな..
てか顔部分のみ自動で切り取ればよかった.いやビール飲みながら可愛い子の写真を眺める楽しみができたから良かったw
っということで続き,ここからは少しコーディング(といってもコピペ)
顔部分のみ切り取る
opencvを使って顔部分を切り取ります.
参考
水増しする
顔の部分のみを切り取るとどうしてもサイズが小さいものはあら過ぎるのでカットします.(50-50サイズ以下はカットしました.)
数が思いのほか減ってしまいますので,データの水増しをします.左右反転とガンマ変換してあげます.
参考
結果
全体的に枚数は結果として変わらなかった..が顔ははっきりと分かる.
予測
まとめ
- プログラムを(ほぼ)書かないで,画像分類をしてみました.
- 最後にデータ整形が重要であったことがよくわかった.
- 少しくらいはそれぞれの特徴で分類ができた?
- 欅坂について詳しくなったw
- データは命だなぁ
良い週末を過ごすことができましたー
読んでくださった方ありがとうございました.
更新履歴
opencvで顔切り取りと画像水増しして学習を追加(ここはコーディングしてるな..)