Posted at

GASとGoogle Cloud Vision APIで認識精度を検証してみた

More than 1 year has passed since last update.

最近、あまりコードが書けていないのですが、仕事の方があまりにも非効率極まりなくなってきたので、ToDo管理システムを構築してやろうと思っているのですが、既存のツールだけだとどうしても「手書きメモ」のリマインドがもれるので、どうにかしてやろうと思ったのです。


作ろうと思っているシステム

GoodNotesでメモを書き出す→Google Driveに保存→Google Apps Scriptで定期的にGoogle Vision APIを叩いて、メモを取得する→ToDoを登録

という野望を持っているわけです。


参考にした資料

Google Vision APIはGoogle Apps Scriptには標準で用意されていないので、APIを直接叩きます。既に同様のことが記事になっていました。

(参考記事:Google Apps ScriptでCloud Vision APIを使ってみる


本日のコード.gs

ほぼ、参考サイトのコピペです。なんかすみません…。特定のフォルダにある画像ファイルを順番にVision APIに通しています。


コード.gs

function doGet(e) {  

var url = "https://accounts.google.com/o/oauth2/auth";
var client_id = PropertiesService.getScriptProperties().getProperty("client_id");

var accessToken = PropertiesService.getScriptProperties().getProperty("access_token");
if(accessToken == null) {
//必要なパラメータ郡
var param = {
"response_type" : "code",
"client_id" : client_id,
"redirect_uri" : getCallbackURL_(), //←は↓に書いてあります
"state" : ScriptApp.newStateToken().withMethod("callback").withArgument("name", "value").withTimeout(2000).createToken(), //←の指定で/usercallbackが呼び出された後、callback関数を呼び出し、その際nameというパラメータでvalueという値を渡し 2000秒でタイムアウトになるという設定が可能になります。
"scope" : "https://www.googleapis.com/auth/cloud-vision",
"access_type" : "offline",
"approval_prompt": 'force'
};
var params = [];
for(var name in param){
params.push(name + "=" + encodeURIComponent(param[name]));
}

url = url + "?" + params.join("&");

Logger.log(url);
return HtmlService.createHtmlOutput('<a href="' + url + '" target="_blank">認証</a>') ;
} else {
return HtmlService.createHtmlOutput('<p>設定済みです。</p>');
}
}

function getCallbackURL_(){
var url = ScriptApp.getService().getUrl() ;
if ( url.indexOf('/exec') >= 0 ) return url.slice(0, -4) + 'usercallback' ;
return url.slice(0, -3) + 'usercallback' ;
}

function callback(e) {
var credentials = fetchAccessToken_(e.parameter.code) ;
var scriptProperties = PropertiesService.getScriptProperties() ;
Logger.log(credentials);
scriptProperties.setProperty('access_token', credentials.access_token) ;
scriptProperties.setProperty('refresh_token', credentials.refresh_token) ;

return HtmlService.createHtmlOutput('<p>設定しました。</p>');
}

function fetchAccessToken_(code) {
var prop = PropertiesService.getScriptProperties();
var res = UrlFetchApp.fetch("https://accounts.google.com/o/oauth2/token", {
"method" : "POST",
payload : {
"code" : code,
"client_id" : prop.getProperty("client_id"),
"client_secret" : prop.getProperty("client_secret"),
"redirect_uri" : getCallbackURL_(),
"grant_type" : "authorization_code"
},
muteHttpExceptions : true
});

return JSON.parse(res.getContentText());
}

function todoDetection() {
var targetFolder = PropertiesService.getScriptProperties().getProperty("target_folder");
var folder = Drive.Children.list(targetFolder, {q: "trashed=false"});
for(var i = 0; i < folder.items.length; i++) {
var target = Drive.Files.get(folder.items[i].id);
var file = DriveApp.getFileById(target.id);

var result = imageAnnotate(file);
if(!result) {
Logger.log("target file name = " + target.title);
}
}
}

function imageAnnotate(file){
var accessToken = PropertiesService.getScriptProperties().getProperty("access_token");

var payload = JSON.stringify({
"requests":[
{
"image": {
"content": Utilities.base64Encode(file.getBlob().getBytes())
},
"features": [
{
"type": "TEXT_DETECTION",
"maxResults": 100
}
],
}
]
});

try {
var res = UrlFetchApp.fetch("https://vision.googleapis.com/v1/images:annotate",
{
method : 'post',
headers: {
authorization: 'Bearer ' + accessToken
},
contentType: 'application/json',
payload : payload
});
} catch(e) {
// 失敗
Logger.log(e);
return false;
}

var obj = JSON.parse(res.getContentText());
var res = obj.responses;

for(var i = 0; i < res.length; i++) {
// Logger.log(res[i].textAnnotations);
var textAnnotations = res[i].textAnnotations;
for(var j = 0; j < textAnnotations.length; j++) {
Logger.log(textAnnotations[j].description);
}
}

return true;
}



結果

iPadのGoodNotesで出力した画像では、正しく認識しませんでした。文章の一部が文字に起こせたものもありましたが、実用には不十分でした。紙に書いたものをスキャナで取れば、もう少し精度があがるんでしょうか。そもそも、字が汚いという話もありそうですが…。今後の課題です。


参考資料

http://qiita.com/soundTricker/items/b4df3072088fcbd0e36d

http://qiita.com/wezardnet/items/ebd0c98f3fc04bcc53a0