GoogleのCloud Vision APIをrubyで実装してrakeタスクにしたった

  • 37
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

前から気になっていた Cloud Vision API を触ってみたのでメモ。

事前準備

Cloud Vision APIを使うには、Google Cloud Platformへ登録が必要である。未登録の場合、Cloud Vision APIの「無料トライアル」ボタンを押して登録しよう。

登録したら、APIキー(サーバーキー)の払い出しをして、APIを叩けるようにしよう。

Cloud Vision APIの使い方まとめ (サンプルコード付き)が参考になるので、困ったらこちらで。

実装

ローカルマシンにあるファイルで試してみる。やることは大きく3つ。

  • 画像をbase64にエンコードする
  • エンコード済の画像を含めて、APIリクエストパラメータを組み立てる
  • Cloud Vision APIにリクエストを投げる

というわけでサンプルコードを晒しておこう。

require 'base64'
require 'json'
require 'net/https'

IMAGE_FILE = './sample.jpg'

API_KEY = 'xxxxxxxx'
API_URL = "https://vision.googleapis.com/v1/images:annotate?key=#{API_KEY}"

# 画像をbase64にエンコード
base64_image = Base64.strict_encode64(File.new(IMAGE_FILE, 'rb').read)

# APIリクエスト用のJSONパラメータの組み立て
body = {
  requests: [{
    image: {
      content: base64_image
    },
    features: [
      {
        type: 'LABEL_DETECTION',
        maxResults: 5
      }
    ]
  }]
}.to_json

# Google Cloud Vision APIにリクエスト投げる
uri = URI.parse(API_URL)
https = Net::HTTP.new(uri.host, uri.port)
https.use_ssl = true
request = Net::HTTP::Post.new(uri.request_uri)
request["Content-Type"] = "application/json"
response = https.request(request, body)

# APIレスポンス出力
puts response.body

gemを使わずに実装したので、リクエストを投げるトコロが若干雑然としているが、Cloud Vision API 自体は非常にシンプルに使うことができる。

検証

JSONパラメータを構築している箇所ではLABEL_DETECTIONと指定しているが、ココを変更すると、物体認識以外も行える。主な機能は以下のとおり。

  • 物体認識 : LABEL_DETECTION
  • 顔認識 : FACE_DETECTION
  • ロゴ認識 : LOGO_DETECTION
  • ランドマーク認識 : LANDMARK_DETECTION
  • テキスト認識 : TEXT_DETECTION
  • エログロ認識 : SAFE_SEARCH_DETECTION

いくつか試してみよう。

LABEL_DETECTION

とりあえず、平和にネコ画像で試してみる。レスポンスを見るとちゃんとネコって認識された!

リクエスト画像

cat.jpg
https://www.pakutaso.com/20160344074post-7250.html

レスポンス

{
  "responses": [
    {
      "labelAnnotations": [
        {
          "mid": "/m/01l7qd",
          "description": "whiskers",
          "score": 0.97826087
        },
        {
          "mid": "/m/0jbk",
          "description": "animal",
          "score": 0.93817031
        },
        {
          "mid": "/m/04rky",
          "description": "mammal",
          "score": 0.92028791
        },
        {
          "mid": "/m/01yrx",
          "description": "cat",
          "score": 0.88385665
        },
        {
          "mid": "/m/0hjzp",
          "description": "kitten",
          "score": 0.8793053
        }
      ]
    }
  ]
}

FACE_DETECTION

なんだか怪しげな男性の画像を投げてみた。目や唇などのかなり細かい情報が返ってきている。

joyLikelihood が LIKELY になっていて、感情認識の結果は「楽しい」ということらしい。まぁ、楽しいってよりは怪しいだけど。

リクエスト画像

face2.jpg
https://www.pakutaso.com/201410082832-1.html

レスポンス

{
  "responses": [
    {
      "faceAnnotations": [
        {
          "boundingPoly": {
            "vertices": [
              {
                "x": 148,
                "y": 29
              },
              {
                "x": 270,
                "y": 29
              },
              {
                "x": 270,
                "y": 171
              },
              {
                "x": 148,
                "y": 171
              }
            ]
          },
          "fdBoundingPoly": {
            "vertices": [
              {
                "x": 161,
                "y": 71
              },
              {
                "x": 247,
                "y": 71
              },
              {
                "x": 247,
                "y": 157
              },
              {
                "x": 161,
                "y": 157
              }
            ]
          },
          "landmarks": [
            {
              "type": "LEFT_EYE",
              "position": {
                "x": 181.09821,
                "y": 99.2435,
                "z": 0.0002638482
              }
            },
            {
              "type": "RIGHT_EYE",
              "position": {
                "x": 214.13016,
                "y": 97.099365,
                "z": -12.981007
              }
            },
            {
              "type": "LEFT_OF_LEFT_EYEBROW",
              "position": {
                "x": 167.40213,
                "y": 91.100555,
                "z": 7.2265382
              }
            },
            {
              "type": "RIGHT_OF_LEFT_EYEBROW",
              "position": {
                "x": 184.34164,
                "y": 91.6631,
                "z": -10.791
              }
            },
            {
              "type": "LEFT_OF_RIGHT_EYEBROW",
              "position": {
                "x": 201.12782,
                "y": 90.614441,
                "z": -17.404898
              }
            },
            {
              "type": "RIGHT_OF_RIGHT_EYEBROW",
              "position": {
                "x": 225.91609,
                "y": 88.156143,
                "z": -15.385879
              }
            },
            {
              "type": "MIDPOINT_BETWEEN_EYES",
              "position": {
                "x": 193.25211,
                "y": 98.665451,
                "z": -13.574019
              }
            },
            {
              "type": "NOSE_TIP",
              "position": {
                "x": 190.78255,
                "y": 123.63931,
                "z": -20.968615
              }
            },
            {
              "type": "UPPER_LIP",
              "position": {
                "x": 196.33002,
                "y": 135.32417,
                "z": -10.72403
              }
            },
            {
              "type": "LOWER_LIP",
              "position": {
                "x": 198.57047,
                "y": 145.97295,
                "z": -6.6631284
              }
            },
            {
              "type": "MOUTH_LEFT",
              "position": {
                "x": 186.68929,
                "y": 138.16307,
                "z": 4.5638247
              }
            },
            {
              "type": "MOUTH_RIGHT",
              "position": {
                "x": 216.51965,
                "y": 134.52066,
                "z": -5.9020534
              }
            },
            {
              "type": "MOUTH_CENTER",
              "position": {
                "x": 197.80579,
                "y": 139.89142,
                "z": -7.4092579
              }
            },
            {
              "type": "NOSE_BOTTOM_RIGHT",
              "position": {
                "x": 206.1855,
                "y": 124.34725,
                "z": -10.612206
              }
            },
            {
              "type": "NOSE_BOTTOM_LEFT",
              "position": {
                "x": 187.03342,
                "y": 124.05929,
                "z": -3.0776432
              }
            },
            {
              "type": "NOSE_BOTTOM_CENTER",
              "position": {
                "x": 195.05676,
                "y": 128.69412,
                "z": -11.879737
              }
            },
            {
              "type": "LEFT_EYE_TOP_BOUNDARY",
              "position": {
                "x": 177.71968,
                "y": 97.635468,
                "z": -1.9731181
              }
            },
            {
              "type": "LEFT_EYE_RIGHT_CORNER",
              "position": {
                "x": 186.35037,
                "y": 99.970093,
                "z": -1.8754189
              }
            },
            {
              "type": "LEFT_EYE_BOTTOM_BOUNDARY",
              "position": {
                "x": 179.83739,
                "y": 102.04105,
                "z": 0.64033604
              }
            },
            {
              "type": "LEFT_EYE_LEFT_CORNER",
              "position": {
                "x": 173.11966,
                "y": 99.7238,
                "z": 6.581109
              }
            },
            {
              "type": "LEFT_EYE_PUPIL",
              "position": {
                "x": 177.93286,
                "y": 100.0177,
                "z": 0.06591022
              }
            },
            {
              "type": "RIGHT_EYE_TOP_BOUNDARY",
              "position": {
                "x": 212.77274,
                "y": 95.898186,
                "z": -15.496446
              }
            },
            {
              "type": "RIGHT_EYE_RIGHT_CORNER",
              "position": {
                "x": 221.93607,
                "y": 97.035385,
                "z": -12.34076
              }
            },
            {
              "type": "RIGHT_EYE_BOTTOM_BOUNDARY",
              "position": {
                "x": 214.28592,
                "y": 99.752068,
                "z": -12.837732
              }
            },
            {
              "type": "RIGHT_EYE_LEFT_CORNER",
              "position": {
                "x": 206.82005,
                "y": 98.930138,
                "z": -9.9026051
              }
            },
            {
              "type": "RIGHT_EYE_PUPIL",
              "position": {
                "x": 213.9201,
                "y": 98.2251,
                "z": -13.893643
              }
            },
            {
              "type": "LEFT_EYEBROW_UPPER_MIDPOINT",
              "position": {
                "x": 174.36987,
                "y": 87.284866,
                "z": -4.6636252
              }
            },
            {
              "type": "RIGHT_EYEBROW_UPPER_MIDPOINT",
              "position": {
                "x": 212.43112,
                "y": 85.409851,
                "z": -19.328856
              }
            },
            {
              "type": "LEFT_EAR_TRAGION",
              "position": {
                "x": 174.67477,
                "y": 111.92154,
                "z": 54.401321
              }
            },
            {
              "type": "RIGHT_EAR_TRAGION",
              "position": {
                "x": 251.83156,
                "y": 108.63575,
                "z": 22.954367
              }
            },
            {
              "type": "FOREHEAD_GLABELLA",
              "position": {
                "x": 192.27304,
                "y": 91.03653,
                "z": -15.46795
              }
            },
            {
              "type": "CHIN_GNATHION",
              "position": {
                "x": 202.21428,
                "y": 161.46428,
                "z": 0.617989
              }
            },
            {
              "type": "CHIN_LEFT_GONION",
              "position": {
                "x": 175.51978,
                "y": 138.10352,
                "z": 41.916679
              }
            },
            {
              "type": "CHIN_RIGHT_GONION",
              "position": {
                "x": 247.22699,
                "y": 134.34093,
                "z": 14.262062
              }
            }
          ],
          "rollAngle": -5.8018222,
          "panAngle": -21.274296,
          "tiltAngle": -7.6548777,
          "detectionConfidence": 0.99945271,
          "landmarkingConfidence": 0.66470236,
          "joyLikelihood": "LIKELY",
          "sorrowLikelihood": "VERY_UNLIKELY",
          "angerLikelihood": "VERY_UNLIKELY",
          "surpriseLikelihood": "VERY_UNLIKELY",
          "underExposedLikelihood": "VERY_UNLIKELY",
          "blurredLikelihood": "VERY_UNLIKELY",
          "headwearLikelihood": "UNLIKELY"
        }
      ]
    }
  ]
}

SAFE_SEARCH_DETECTION

画像は自粛するが、適当に拾ってきたエロ画像で試してみた。ちゃんと、adultがVERY_LIKELYになっているw

レスポンス

{
  "responses": [
    {
      "safeSearchAnnotation": {
        "adult": "VERY_LIKELY",
        "spoof": "UNLIKELY",
        "medical": "LIKELY",
        "violence": "VERY_UNLIKELY"
      }
    }
  ]
}

rake タスク

さすがに、実装が雑すぎて検証しづらいのでrakeタスクにしてみた。楽に検証できるよう、ローカルにあるファイルだけじゃなく、Webにある画像を直接指定できるようにしている。

https://github.com/tmknom/ruby-cloud-vision

インストール方法

git clone git@github.com:tmknom/ruby-cloud-vision.git && cd ruby-cloud-vision
bundle install --path=vendor/bundle
echo 'export GCP_API_KEY=[your_api_key]' >> .env

使い方

# Display all tasks.
$ bundle exec rake -T

# Run face detection.
$ bundle exec rake vision:face[<path/to/image>]

# Compute a set of properties about the image (such as the image's dominant colors).
$ bundle exec rake vision:image_properties[<path/to/image>]

# Run label detection.
$ bundle exec rake vision:label[<path/to/image>]

# Run landmark detection.
$ bundle exec rake vision:landmark[<path/to/image>]

# Run logo detection.
$ bundle exec rake vision:logo[<path/to/image>]

# Run various computer vision models to compute image safe-search properties.
$ bundle exec rake vision:safe_search[<path/to/image>]

# Run OCR.
$ bundle exec rake vision:text[<path/to/image>]

# Unspecified feature type.
$ bundle exec rake vision:unspecified[<path/to/image>]

実行例

ローカルにある画像

$ bundle exec rake vision:label[/Users/sample_user/sample.jpg]

Web上にある画像

$ bundle exec rake vision:label[http://example.com/sample.jpg]

まとめ

というわけで、Cloud Vision APIを叩いて遊んでみた。

使い方次第で面白いサービスが手軽に作れそうだね。スゴイ時代になったもんだ。