Google Cloud Vision API、Amazon Rekognition、Clarifaiを利用した画像タグ情報の検出比較

概要

タイトル詳細内容

Google Cloud Vision API、Amazon Rekognition、Clarifai の3サービスを利用して、同一画像における出力されたタグ情報とその確率を確率順で一覧化した。記載主が各サービスの中身を理解していないため、本記事では考察等は特にない。比較した検証結果を記載している。

手法(利用するサービス)

(1)Google Cloud Vision API(LABEL_DETECTION機能を利用)
(2)Amazon Rekognition(detect-labelsを利用)
(3)Clarifai(Generalモデルを利用)

※以降、各手法を括弧数字で表す。

設定

設定項目 (1) (2) (3)
出力する最小確率値を0.0 -
出力する件数を確率上位20件

○:設定
✕:未設定
- :設定できるか不明

利用する画像

Clarifai で提供されているサンプル画像(3画像)を使用する。
(ベンチマークを使いたいですが、大量の画像を利用するとお金がかかるので。。。)

参考サイト

検証プログラムは下記サイトのコードを利用しました。

検証

general.jpg

general.jpg

順番 (1)タグ (1)確率 (2)タグ (2)確率 (3)タグ (3)確率
1 track 0.971895 Train 97.60879516601562 train 0.998707
2 train station 0.967589 Transportation 97.60879516601562 railway 0.997130
3 transport 0.945843 Vehicle 97.60879516601562 transportation system 0.995444
4 train 0.867160 Bench 96.17594146728516 locomotive 0.991466
5 public transport 0.820130 Rail 95.95146942138672 station 0.991072
6 rapid transit 0.799794 Railway 95.95146942138672 travel 0.987303
7 rail transport 0.769455 Train Track 95.95146942138672 subway system 0.979800
8 metropolitan area 0.696805 Subway 88.46814727783203 commuter 0.967626
9 residential area 0.691829 Terminal 88.46814727783203 traffic 0.967072
10 metro station 0.684041 Train Station 88.46814727783203 railroad track 0.964788
11 railroad car 0.680328 Kiosk 61.22735595703125 blur 0.964049
12 snow 0.659115 - - urban 0.958403
13 rolling stock 0.642027 - - no person 0.957923
14 winter 0.575625 - - platform 0.957827
15 lane 0.524355 - - business 0.956763
16 evening 0.520322 - - track 0.944639
17 vehicle 0.516140 - - city 0.939220
18 - - - - fast 0.936508
19 - - - - road 0.930664
20 - - - - terminal 0.919096

apparel.jpeg

apparel.jpeg

順番 (1)タグ (1)確率 (2)タグ (2)確率 (3)タグ (3)確率
1 footwear 0.973792 Clothing 98.83049774169922 footwear 0.999516
2 brown 0.943087 Footwear 98.83049774169922 leather 0.999054
3 boot 0.903413 - - fashion 0.998241
4 shoe 0.807735 - - wear 0.998219
5 work boots 0.748996 - - shoe 0.997128
6 leather 0.630630 - - lace tie 0.996485
7 product 0.566406 - - foot 0.995150
8 - - - - couple together 0.991382
9 - - - - classic 0.989021
10 - - - - sole 0.983512
11 - - - - rubberize 0.983337
12 - - - - shoelace 0.971329
13 - - - - sneakers 0.965541
14 - - - - isolated 0.964215
15 - - - - shining 0.958012
16 - - - - two 0.951464
17 - - - - accessory 0.948621
18 - - - - elegant 0.947981
19 - - - - casual 0.917377
20 - - - - formalwear 0.914865

demographics.jpg

demographics.jpg

順番 (1)タグ (1)確率 (2)タグ (2)確率 (3)タグ (3)確率
1 musician 0.948320 Human 99.29228973388672 music 0.996781
2 music 0.929606 People 99.29228973388672 performance 0.994150
3 guitar 0.899808 Person 99.29228973388672 musician 0.992746
4 bass guitar 0.842955 Leisure Activities 95.38648986816406 concert 0.988489
5 musical instrument 0.842339 Music 95.38648986816406 guitar 0.984012
6 string instrument 0.841004 Musical Instrument 95.38648986816406 instrument 0.981437
7 plucked string instruments 0.832668 Musician 95.38648986816406 band 0.966942
8 string instrument 0.814549 Performer 95.38648986816406 singer 0.964798
9 guitarist 0.805938 Electric Guitar 94.01875305175781 guitarist 0.960825
10 session musician 0.801359 Guitar 94.01875305175781 man 0.950582
11 profession 0.762504 Cello 88.73184967041016 stringed instrument 0.942991
12 performance 0.719437 Bass Guitar 59.74739074707031 stage 0.939382
13 microphone 0.653672 Music Band 55.897552490234375 people 0.931426
14 music artist 0.633922 Fiddle 50.799530029296875 festival 0.923306
15 musical ensemble 0.611162 Viola 50.799530029296875 adult 0.908155
16 audio 0.604207 Violin 50.799530029296875 portrait 0.827447
17 performing arts 0.591012 - - pop music 0.792196
18 musical instrument accessory 0.584016 - - recreation 0.783603
19 bassist 0.583689 - - group 0.773704
20 string instrument accessory 0.563132 - - rock 0.773322
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account log in.