LoginSignup
0
0

More than 3 years have passed since last update.

fastbookのサンプルコード(02_production.ipynb)をGoogle Colabで試してみた Part 3

Last updated at Posted at 2020-12-23

前回までは準備系にちょっと回り道してきたので、今回からfast.aiのフリーコースlesson 2のマテリアル「02_production.ipynb」の中身に入りたいと思います。ここで紹介しているコードは、自分が理解し易いように書き換えてありますので、オリジナルと比較して見たいときは、ここ→02_production.ipynbをクリックしてください。

環境設定とモジュールのインポート

一番初めに行うのは、環境の初期化と必要なモジュールのインポートです。

!pip install -Uqq fastbook
import fastbook
fastbook.setup_book()

from fastbook import *
from fastai.vision.widgets import *

このコードを実行した時点のカレントディレクトリは/content/gdriveになっています。カレントディレクトリを確認するには!pwdとタイプしてください。OSのシステムコマンドを実行するときはコマンドの先頭に!を付けます。(※ OSが異なれば使うコマンドも違います!)

サンプル画像のダウンロードとチェック

Being Search APIを使ってサンプル画像を検索するのですが、実行の都度検索するとMS Azureの無料枠を超える可能性もあるので、検索した画像はGoogleドライブの所定のディレクトリに格納することにします。

working_directory = Path('/content/gdrive/MyDrive/Colab Notebooks/FastAI')  # コース学習用のディレクトリ
images_directory  = working_directory/'images'                              # サンプル画像を格納するサブディレクトリ

# サンプル画像格納用のディレクトリがなければ新規に作成する
if not images_directory.exists():
  images_directory.mkdir()

02_production.ipynbで最初に呼び出されるfastbook.setup_book()という関数は/content/gdriveにGoogleドライブをマウントするので、画像の格納先のルート・ディレクトリは/content/gdrive/MyDrive/Colab Notebooks/FastAI/imagesという設定にします。images_directoryはそこを指す変数です。

Pathpathlib.PosixPathモジュールにあり、Pythonからファイル操作をする便利ツールです。例えば、working_directory/'images'とすれば、間に/を挟んでくれます。また、images_directory.exists()とすると、画像の格納先ディレクトリが存在するか否かを知ることができます。ちなみに、??images_directoryとタイプすると、images_directoryについてのヘルプが表示されます。それによれば、pathlib.PosixPathクラスのインスタンスですね。
image.png
実は、?images_directoryでもいいみたいです。多少スペックが違ってもキー入力が少ない方がいい。

Being Search APIを使った画像の検索とダウンロード

ここから、いよいよBeing Search APIによる検索とダウンロードです。検索にはAPIキーが必要です。APIキーの取得については、マイクロソフト社のサイトに「クイックスタート: Azure portal を使用して Cognitive Services リソースを作成する」という解説があります。
APIキー文字列を得るには、Microsoft Azureにログインし「すべてのリソース」から目的のリソースの名前をクリックして「キーとエンドポイント」を選択し、キー1キー2の右側のアイコンをクリックして、キー文字列をコピーしてください。
image.png
APIキーをコピーしたら、下記の'XXX'をコピーしたキーで置き換えてください。

# Being Search APIキーの設定
key = os.environ.get('AZURE_SEARCH_KEY', 'XXX')

検索する熊の種類はgrizzlyblackteddyの3種で、画像サンプルの格納先ディレクトリは/content/gdrive/MyDrive/Colab Notebooks/FastAI/images/bearsで、bears_images_directoryはそのディレクトリを指すパス変数です。

bear_types = 'grizzly','black','teddy'            # 熊の種類
bears_images_directory = images_directory/'bears' # 熊の画像サンプルのホームディレクトリ

次のコードがBeing Search APIを使う部分で、変数名を変更してありますが、ロジックは提供されているままです。画像を格納するディレクトリが存在しない場合のみ実行するようになっています。そうしないと、セルを実行する都度検索が行われるので、あまり回数多く実行すると無料枠を超えてしまいます。

# サンプル画像保存用ディレクトリに検索した画像をダウンロードする
if not bears_images_directory.exists(): # 保存用ディレクトリが存在しないなら以下の処理を実行する
    bears_images_directory.mkdir()                                # 熊画像を格納する親ディレクトリを作成する
    for bear_type in bear_types:        # 熊の種類ごとに
        dest = bears_images_directory/bear_type                   # 指定の種類の熊の画像を格納するサブディレクトリ
        dest.mkdir(exist_ok=True)                                 # サブディレクトリを作成する
        results = search_images_bing(key, f'{bear_type} bear')    # 画像のURLを検索する
        download_images(dest, urls=results.attrgot('contentUrl')) # 検索したURLから画像をサブディレクトリにダウンロードする

このコードを実行した結果は次のとおりです。熊の種類ごとにサブディレクトが作成されたことが確認できますね。dest.mkdir(exist_ok=True)とすると、すでにディレクトリが存在してもエラーにならず何もしないので、事前に存在するか否かチェックせずに済みますが、この場合は、親ディレクトリが存在しないときのみ実行するので、exist_ok=Trueは不要な気がします。検索結果resultsの中身については、私の記事「fastbookのサンプルコード(02_production.ipynb)をGoogle Colabで試してみた Part 1」を見てください。
image.png
ここでダウンロードした熊のサンプル画像は、各々読み込めるかどうかチェックして、読み込めない画像はすべて削除します。

ダウンロードした画像のチェック

まず、get_image_files関数を使って、全画像のURIを格納したリストfnsを取得します。

# すべての熊画像のURIのリストを取得する
fns = get_image_files(bears_images_directory)
for i, uri in enumerate(fns):
  if i>5: break
  print(f'[{i}]:{uri}')

次に、リストfnsverify_images関数に渡して、オープンエラーになる画像のURIのリストfailedを得ます。

# 読み込めない画像のURIのリストを取得する
failed = verify_images(fns)
for i, uri in enumerate(failed):
  if i>5: break
  print(f'[{i}]:{uri}')

動作確認のため、エラー画像のリストfailedのファイルを各々実際にオープンしてエラーになることを確認します。ちゃんと動作することを確認出来たら、このコードは不要です。fastaiのGithubを見た限り、同じことをやってます。

# 実際読込エラーになるかどうかの確認
for im in failed:
  try:
    im = Image.open(im)
    im.to_thumb(128,128)
  except Exception as e:
    print(e)

次のイメージはエラーチェックまで実行した結果です。
image.png
エラーになった画像を確認するためにGoogleドライブを開いてみると次のようになっていました。赤いボックスで囲んだファイルがエラー画像です。
image.png
これを見ると、エラー画像のサムネイルが他と異なっているのが確認できますね。

エラー画像の削除

リストfailedmapメソッドを使って、エラー画像ごとにPath.unlink関数をコールしてファイルを削除します。

# 読み込めない画像を削除する
failed.map(Path.unlink);

エラー画像を削除した後のイメージは次のとおりです。確かに、エラー画像は無くなっていますね。
image.png

これで学習に使うサンプル画像がオープンエラーの無いクリーンなデータになりました。次回は、このデータを使って、転移学習(Transfer Learning)という手法で短時間に非常に高い精度の予測モデルを作る方法と、間違ったラベリングの訂正について解説します。(ひょっとしてファインチューニングというべきかも? モーちょっと勉強します! トホホ:pensive:)
→「転移学習とは | メリット・デメリット・ファインチューニングの意味

関連記事

fastbookのサンプルコード(02_production.ipynb)をGoogle Colabで試してみた Part 1
fastbookのサンプルコード(02_production.ipynb)をGoogle Colabで試してみた Part 2
Colabからfastbookのサンプルコード・リポジトリをGoogleドライブにclone/pullする

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0