##はじめに
CoreMLを用いた画像解析について、遅まきながら試してみました。
##検証環境
以下の環境を使用しています。
- macOS Sierra Version 10.12.4
- Xcode Version 9.0.0 β6
- iOS11.0β6
##今回行いたいこと
coreMLを用いて、バンドル内に含んだ画像の解析結果をラベルに吐き出すということを行います。簡単な動作確認のみのため、端末内部からの画像取得や、画像の通信取得は行わず、プロジェクト内に画像を直接格納します。
##modelの導入
以下の手順で学習済みモデルをプロジェクト内に含ませます。
今回はAppleが提供しているResNet50を使用します。
※モデルは以下のHPで入手可能です。
https://developer.apple.com/machine-learning/
- モデルをプロジェクトファイルに入れる
- ドラッグ&ドロップで簡単に入れることができます。
- モデルのターゲットにプロジェクトを追加する
- Utility AreaのTargetMembershipからプロジェクトを追加します
- この時点でXcodeによってモデルに対応したクラスが自動生成されます
- そのようにするとmodelクラスの画面中央部のModelClassの部分に (->)マークが表示されますので、この部分をタップすることでクラスの内容を確認することができます。
クラス内には、初期化用のメソッド、解析用の画像を代入するプロパティ、解析メソッドなどがあります。ここで注目されるのは画像がUIImageではなく、CVPixelBuffer
で定義されていることです。
/// 画像解析対象のイメージ(224 * 224 のピクセルバッファで定義する必要がある)
/// Input image of scene to be classified as color (kCVPixelFormatType_32BGRA) image buffer, 224 pixels wide by 224 pixels high
var image: CVPixelBuffer
/// 解析用のメソッド
func prediction(image: CVPixelBuffer) throws -> Resnet50Output
##実装
以下の手順で実装します。
- 画像のURL取得
- 学習済みModelのインスタンス生成
- VNCoreRequest用のモデルクラス生成
- VisionFrameworkのリクエスト用ハンドラの生成
- VNCoreMLRequestの生成
- completionHandlerに結果取得後の処理を記載
- requestの実行
import UIKit
import CoreML
import Vision
class ViewController: UIViewController {
// 結果出力用のラベル
@IBOutlet weak var resultLabel: UILabel!
override func viewDidLoad() {
super.viewDidLoad()
// 画像ファイルのURL取得
let path = Bundle.main.path(forResource: "sample", ofType: "jpg")
let imageURL = NSURL.fileURL(withPath: path!)
// 学習済みModelのインスタンス生成
let modelFile = Resnet50()
// Vision FrameworkのVNCoreMLRequest用のクラス生成
let model = try! VNCoreMLModel(for: modelFile.model)
// VNRequestのhandler作成
let handler = VNImageRequestHandler(url: imageURL)
// リクエストの生成
let request = VNCoreMLRequest(model: model) { (request, error) in
// 結果取得
guard let results = request.results as? [VNClassificationObservation] else {
fatalError("ML Vision Requestの結果取得失敗")
}
// 予測結果と信頼度の定義
var bestPrediction = ""
var bestConfidence: VNConfidence = 0.0
// 最高信頼度の予測結果と信頼度数値を取得
for classification in results {
if(classification.confidence > bestConfidence) {
bestConfidence = classification.confidence
bestPrediction = classification.identifier
}
}
// 予測結果と信頼度の出力
print("予測: \(bestPrediction) 信頼度:\(bestConfidence)" )
self.resultLabel.text = bestPrediction
}
// requestの実行
try! handler.perform([request])
}
}
##所感
CoreML単体ではCVPixelBufferを使用しなければいけない点、modelによって画像サイズのリサイズが必要であったり、予測メソッドの引数やアウトプットの形式がモデルにより微妙に異なることにより学習済みのモデルの切り替えに手間がかかるなど少々ハードルが高く感じました。
その点、VisionFrameworkを使用することでその部分がラップされ、敷居が低くなっているように思います。使用するモデルの変更もVNCoreMLModelの引数のmodelクラスを変更後のモデルにするのみでよく簡易的であると感じました。