Help us understand the problem. What is going on with this article?

GoogleのCloud Vision APIをrubyで実装してrakeタスクにしたった

前から気になっていた Cloud Vision API を触ってみたのでメモ。

事前準備

Cloud Vision APIを使うには、Google Cloud Platformへ登録が必要である。未登録の場合、Cloud Vision APIの「無料トライアル」ボタンを押して登録しよう。

登録したら、APIキー(サーバーキー)の払い出しをして、APIを叩けるようにしよう。

Cloud Vision APIの使い方まとめ (サンプルコード付き)が参考になるので、困ったらこちらで。

実装

ローカルマシンにあるファイルで試してみる。やることは大きく3つ。

  • 画像をbase64にエンコードする
  • エンコード済の画像を含めて、APIリクエストパラメータを組み立てる
  • Cloud Vision APIにリクエストを投げる

というわけでサンプルコードを晒しておこう。

require 'base64'
require 'json'
require 'net/https'

IMAGE_FILE = './sample.jpg'

API_KEY = 'xxxxxxxx'
API_URL = "https://vision.googleapis.com/v1/images:annotate?key=#{API_KEY}"

# 画像をbase64にエンコード
base64_image = Base64.strict_encode64(File.new(IMAGE_FILE, 'rb').read)

# APIリクエスト用のJSONパラメータの組み立て
body = {
  requests: [{
    image: {
      content: base64_image
    },
    features: [
      {
        type: 'LABEL_DETECTION',
        maxResults: 5
      }
    ]
  }]
}.to_json

# Google Cloud Vision APIにリクエスト投げる
uri = URI.parse(API_URL)
https = Net::HTTP.new(uri.host, uri.port)
https.use_ssl = true
request = Net::HTTP::Post.new(uri.request_uri)
request["Content-Type"] = "application/json"
response = https.request(request, body)

# APIレスポンス出力
puts response.body

gemを使わずに実装したので、リクエストを投げるトコロが若干雑然としているが、Cloud Vision API 自体は非常にシンプルに使うことができる。

検証

JSONパラメータを構築している箇所ではLABEL_DETECTIONと指定しているが、ココを変更すると、物体認識以外も行える。主な機能は以下のとおり。

  • 物体認識 : LABEL_DETECTION
  • 顔認識 : FACE_DETECTION
  • ロゴ認識 : LOGO_DETECTION
  • ランドマーク認識 : LANDMARK_DETECTION
  • テキスト認識 : TEXT_DETECTION
  • エログロ認識 : SAFE_SEARCH_DETECTION

いくつか試してみよう。

LABEL_DETECTION

とりあえず、平和にネコ画像で試してみる。レスポンスを見るとちゃんとネコって認識された!

リクエスト画像

cat.jpg
https://www.pakutaso.com/20160344074post-7250.html

レスポンス

{
  "responses": [
    {
      "labelAnnotations": [
        {
          "mid": "/m/01l7qd",
          "description": "whiskers",
          "score": 0.97826087
        },
        {
          "mid": "/m/0jbk",
          "description": "animal",
          "score": 0.93817031
        },
        {
          "mid": "/m/04rky",
          "description": "mammal",
          "score": 0.92028791
        },
        {
          "mid": "/m/01yrx",
          "description": "cat",
          "score": 0.88385665
        },
        {
          "mid": "/m/0hjzp",
          "description": "kitten",
          "score": 0.8793053
        }
      ]
    }
  ]
}

FACE_DETECTION

なんだか怪しげな男性の画像を投げてみた。目や唇などのかなり細かい情報が返ってきている。

joyLikelihood が LIKELY になっていて、感情認識の結果は「楽しい」ということらしい。まぁ、楽しいってよりは怪しいだけど。

リクエスト画像

face2.jpg
https://www.pakutaso.com/201410082832-1.html

レスポンス

{
  "responses": [
    {
      "faceAnnotations": [
        {
          "boundingPoly": {
            "vertices": [
              {
                "x": 148,
                "y": 29
              },
              {
                "x": 270,
                "y": 29
              },
              {
                "x": 270,
                "y": 171
              },
              {
                "x": 148,
                "y": 171
              }
            ]
          },
          "fdBoundingPoly": {
            "vertices": [
              {
                "x": 161,
                "y": 71
              },
              {
                "x": 247,
                "y": 71
              },
              {
                "x": 247,
                "y": 157
              },
              {
                "x": 161,
                "y": 157
              }
            ]
          },
          "landmarks": [
            {
              "type": "LEFT_EYE",
              "position": {
                "x": 181.09821,
                "y": 99.2435,
                "z": 0.0002638482
              }
            },
            {
              "type": "RIGHT_EYE",
              "position": {
                "x": 214.13016,
                "y": 97.099365,
                "z": -12.981007
              }
            },
            {
              "type": "LEFT_OF_LEFT_EYEBROW",
              "position": {
                "x": 167.40213,
                "y": 91.100555,
                "z": 7.2265382
              }
            },
            {
              "type": "RIGHT_OF_LEFT_EYEBROW",
              "position": {
                "x": 184.34164,
                "y": 91.6631,
                "z": -10.791
              }
            },
            {
              "type": "LEFT_OF_RIGHT_EYEBROW",
              "position": {
                "x": 201.12782,
                "y": 90.614441,
                "z": -17.404898
              }
            },
            {
              "type": "RIGHT_OF_RIGHT_EYEBROW",
              "position": {
                "x": 225.91609,
                "y": 88.156143,
                "z": -15.385879
              }
            },
            {
              "type": "MIDPOINT_BETWEEN_EYES",
              "position": {
                "x": 193.25211,
                "y": 98.665451,
                "z": -13.574019
              }
            },
            {
              "type": "NOSE_TIP",
              "position": {
                "x": 190.78255,
                "y": 123.63931,
                "z": -20.968615
              }
            },
            {
              "type": "UPPER_LIP",
              "position": {
                "x": 196.33002,
                "y": 135.32417,
                "z": -10.72403
              }
            },
            {
              "type": "LOWER_LIP",
              "position": {
                "x": 198.57047,
                "y": 145.97295,
                "z": -6.6631284
              }
            },
            {
              "type": "MOUTH_LEFT",
              "position": {
                "x": 186.68929,
                "y": 138.16307,
                "z": 4.5638247
              }
            },
            {
              "type": "MOUTH_RIGHT",
              "position": {
                "x": 216.51965,
                "y": 134.52066,
                "z": -5.9020534
              }
            },
            {
              "type": "MOUTH_CENTER",
              "position": {
                "x": 197.80579,
                "y": 139.89142,
                "z": -7.4092579
              }
            },
            {
              "type": "NOSE_BOTTOM_RIGHT",
              "position": {
                "x": 206.1855,
                "y": 124.34725,
                "z": -10.612206
              }
            },
            {
              "type": "NOSE_BOTTOM_LEFT",
              "position": {
                "x": 187.03342,
                "y": 124.05929,
                "z": -3.0776432
              }
            },
            {
              "type": "NOSE_BOTTOM_CENTER",
              "position": {
                "x": 195.05676,
                "y": 128.69412,
                "z": -11.879737
              }
            },
            {
              "type": "LEFT_EYE_TOP_BOUNDARY",
              "position": {
                "x": 177.71968,
                "y": 97.635468,
                "z": -1.9731181
              }
            },
            {
              "type": "LEFT_EYE_RIGHT_CORNER",
              "position": {
                "x": 186.35037,
                "y": 99.970093,
                "z": -1.8754189
              }
            },
            {
              "type": "LEFT_EYE_BOTTOM_BOUNDARY",
              "position": {
                "x": 179.83739,
                "y": 102.04105,
                "z": 0.64033604
              }
            },
            {
              "type": "LEFT_EYE_LEFT_CORNER",
              "position": {
                "x": 173.11966,
                "y": 99.7238,
                "z": 6.581109
              }
            },
            {
              "type": "LEFT_EYE_PUPIL",
              "position": {
                "x": 177.93286,
                "y": 100.0177,
                "z": 0.06591022
              }
            },
            {
              "type": "RIGHT_EYE_TOP_BOUNDARY",
              "position": {
                "x": 212.77274,
                "y": 95.898186,
                "z": -15.496446
              }
            },
            {
              "type": "RIGHT_EYE_RIGHT_CORNER",
              "position": {
                "x": 221.93607,
                "y": 97.035385,
                "z": -12.34076
              }
            },
            {
              "type": "RIGHT_EYE_BOTTOM_BOUNDARY",
              "position": {
                "x": 214.28592,
                "y": 99.752068,
                "z": -12.837732
              }
            },
            {
              "type": "RIGHT_EYE_LEFT_CORNER",
              "position": {
                "x": 206.82005,
                "y": 98.930138,
                "z": -9.9026051
              }
            },
            {
              "type": "RIGHT_EYE_PUPIL",
              "position": {
                "x": 213.9201,
                "y": 98.2251,
                "z": -13.893643
              }
            },
            {
              "type": "LEFT_EYEBROW_UPPER_MIDPOINT",
              "position": {
                "x": 174.36987,
                "y": 87.284866,
                "z": -4.6636252
              }
            },
            {
              "type": "RIGHT_EYEBROW_UPPER_MIDPOINT",
              "position": {
                "x": 212.43112,
                "y": 85.409851,
                "z": -19.328856
              }
            },
            {
              "type": "LEFT_EAR_TRAGION",
              "position": {
                "x": 174.67477,
                "y": 111.92154,
                "z": 54.401321
              }
            },
            {
              "type": "RIGHT_EAR_TRAGION",
              "position": {
                "x": 251.83156,
                "y": 108.63575,
                "z": 22.954367
              }
            },
            {
              "type": "FOREHEAD_GLABELLA",
              "position": {
                "x": 192.27304,
                "y": 91.03653,
                "z": -15.46795
              }
            },
            {
              "type": "CHIN_GNATHION",
              "position": {
                "x": 202.21428,
                "y": 161.46428,
                "z": 0.617989
              }
            },
            {
              "type": "CHIN_LEFT_GONION",
              "position": {
                "x": 175.51978,
                "y": 138.10352,
                "z": 41.916679
              }
            },
            {
              "type": "CHIN_RIGHT_GONION",
              "position": {
                "x": 247.22699,
                "y": 134.34093,
                "z": 14.262062
              }
            }
          ],
          "rollAngle": -5.8018222,
          "panAngle": -21.274296,
          "tiltAngle": -7.6548777,
          "detectionConfidence": 0.99945271,
          "landmarkingConfidence": 0.66470236,
          "joyLikelihood": "LIKELY",
          "sorrowLikelihood": "VERY_UNLIKELY",
          "angerLikelihood": "VERY_UNLIKELY",
          "surpriseLikelihood": "VERY_UNLIKELY",
          "underExposedLikelihood": "VERY_UNLIKELY",
          "blurredLikelihood": "VERY_UNLIKELY",
          "headwearLikelihood": "UNLIKELY"
        }
      ]
    }
  ]
}

SAFE_SEARCH_DETECTION

画像は自粛するが、適当に拾ってきたエロ画像で試してみた。ちゃんと、adultがVERY_LIKELYになっているw

レスポンス

{
  "responses": [
    {
      "safeSearchAnnotation": {
        "adult": "VERY_LIKELY",
        "spoof": "UNLIKELY",
        "medical": "LIKELY",
        "violence": "VERY_UNLIKELY"
      }
    }
  ]
}

rake タスク

さすがに、実装が雑すぎて検証しづらいのでrakeタスクにしてみた。楽に検証できるよう、ローカルにあるファイルだけじゃなく、Webにある画像を直接指定できるようにしている。

https://github.com/tmknom/ruby-cloud-vision

インストール方法

git clone git@github.com:tmknom/ruby-cloud-vision.git && cd ruby-cloud-vision
bundle install --path=vendor/bundle
echo 'export GCP_API_KEY=[your_api_key]' >> .env

使い方

# Display all tasks.
$ bundle exec rake -T

# Run face detection.
$ bundle exec rake vision:face[<path/to/image>]

# Compute a set of properties about the image (such as the image's dominant colors).
$ bundle exec rake vision:image_properties[<path/to/image>]

# Run label detection.
$ bundle exec rake vision:label[<path/to/image>]

# Run landmark detection.
$ bundle exec rake vision:landmark[<path/to/image>]

# Run logo detection.
$ bundle exec rake vision:logo[<path/to/image>]

# Run various computer vision models to compute image safe-search properties.
$ bundle exec rake vision:safe_search[<path/to/image>]

# Run OCR.
$ bundle exec rake vision:text[<path/to/image>]

# Unspecified feature type.
$ bundle exec rake vision:unspecified[<path/to/image>]

実行例

ローカルにある画像

$ bundle exec rake vision:label[/Users/sample_user/sample.jpg]

Web上にある画像

$ bundle exec rake vision:label[http://example.com/sample.jpg]

まとめ

というわけで、Cloud Vision APIを叩いて遊んでみた。

使い方次第で面白いサービスが手軽に作れそうだね。スゴイ時代になったもんだ。

crowdworks
21世紀の新しいワークスタイルを提供する日本最大級のクラウドソーシング「クラウドワークス」のエンジニアチームです!
https://crowdworks.co.jp/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした