35
44

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Google Apps Scriptで画像の文字列を抜き出す

Posted at

##概要
Google Apps Scriptで画像から文字を抜き出すコードを書きました。
近所のヨーカドーのWebチラシをGoogle Apps Scriptで毎日読み込み、
ヨーグルトが安かったらスマフォに通知するのが目標でした。

先に結論からいうと、チラシだとOCRの精度が悪くGoogleのOCRはこれからと言ったところでした。
青空文庫をキャプチャして読み込んだ例が以下となります。

##ポイント
DriveAppではなくDrive APIを使うのがコツです。

##Drive APIを有効にする
Drive APIはデフォルトでOFFなので、エディタを開いたら有効にする必要があります。
1.GASのエディタ > リソース > Google の拡張サービスを開く
2.Drive APIをONにする
無題.jpg
3.Google デベロッパー コンソールを開く
4.検索窓で「Drive API」を検索
5.Drive APIを有効にする

##スクリプト
URLからファイルを読み込み、OCRしながらGoogle Driveにアップロードします。
アップロードされるとGoogle Documentとして処理され、画像の下に読み取ったテキストが表示されます。

コード.gs
function myFunction() {

  // Driveに保存するファイル情報
  var resource = {
    title: '20151220', // ファイル名
    mimeType: 'image/png' // ファイルのMIMEタイプ
    // mimeType: 'application/pdf'
    // mimeType: 'image/jpeg'
  };
 
  // 対象のファイル
  var response = UrlFetchApp.fetch('https://qiita-image-store.s3.amazonaws.com/0/45865/a99e5512-5306-2a2d-31f1-58c106a995c6.png');
  var mediaData = response.getBlob();

  // OCRの設定
  var optionalArgs = {
    ocr: true,
    ocrLanguage: 'ja'
    // ocrLanguage: 'en'
  };
  
  // Google Driveにファイル追加
  var file = Drive.Files.insert(resource, mediaData, optionalArgs);

  // 読み取ったテキスト
  // スプレッドシートに保存したり、メールで飛ばしたり
  // var doc = DocumentApp.openById(file.id);
  // var text = doc.getBody().getText();
}

##読み込んだ画像
笑う唖女.png

##OCR結果
ふりがなが読み取りを阻害してる気がします。

笑う呼女
夢野久作
「キキキ------ケ工ケ工ケ工------ キキキキッ」 形容の出来ない奇妙な声が、突然に聞こえて来たので、座敷中皆ジンとなった。 それはこの上もない拳曲歳い座敷であった。 ) * 宙所家の奥座敷、十置と十二置続きの広間に被宿リの大勢のお客が、酒を飲んでワイ?ィ奉っていた。奇妙な謡曲を謡う者、流行節を唄 い唄い座ったまま躍り出しているもの・不安とか、不吉とかいう形のミジンも頭していない靴そのもののような暗の人々の集まりであっ た。それが皆、突然にシンとしてしまったのであった。 「...何じゃったろかい。今の声は...」 「ケダモノじゃろか」 「鳥じゃろか」 「猿と人間と舎の子のような・」 「...春先に記端かん等じゃが------」 - - 皆、その声の方向に顔を向けて耳を澄ました。 三間の床の間にリと 松と竹の学備称。その前に新郎の当主甘川澄夫と、新婦 リ リ*リ た。墓の諸寺伯と そのリた老人。仲人役の郡奉師会長墨野琴豊斐は 鶏ースッキリしたエロックコートに繋鞭 で駆の一ー当ーリ所員堅長リ舎長、同リたような村 でも望しい老若がータースはかり情経に頑張って所狭しと並んだ田舎料理を盛んにパク付いては、氏神様から借りて来た五合一升一升 五合入のリ大歪を理わしている。豊担当酔っている。リのの、まなほんのリのロといっ壺い座敷であった。 縁側の橋学際に生っている仲人役の栗野博士夫妻は最前から頻りに気を離んで、新郎新婦に席を緊きせようとしていたが、田舎の風俗に慣 れない新部の選夫がモジモジしている時にナカサ力立ちそうになかった。ゃ、立上りそうな腰構えになると又も歪を請識に来る者がいるの で又も尻を廃付けなければならなかった、登うしてやっと歪が絶えた機会を覚縮って本気に立上ろうとしたところへ今一度前と違った奇怪な 叫び声が聞こえたので、又もベタリと腰を諭したのであった。 「ァワァワァワ・ェべェペ----- 工べ...」 「何じゃい。アル雄ャンの声じゃないかい」 「亜ヤンの非人が何か賞いに来とるんじゃろ」 「ウン。お玄関の方角じゃ」 は 「ああ、ピックリした。俺はまた生きた猿の皮を剥ぎよるのかと思うた」 「...シッ...猿ナンチ事云うなよ」
オ *ヘへ三エナー4ーrぐ》lメーォー 山ー二 lーーtーロエ」へい ° 島 ベr、ローX2は上、"-l L -*マ十ャートー

##読み込んだ元ネタ
夢野久作 - 笑う唖女 (青空文庫)
http://www.aozora.gr.jp/cards/000096/files/931_22204.html

35
44
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
35
44

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?