LoginSignup
5
0

More than 1 year has passed since last update.

D-man bot アップデート計画 2021 文字認識編

Last updated at Posted at 2021-12-24

はじめに

2021年のD言語くん Updateによると、今年は441件と例年と比較して大きく減少したことが明らかになりました。

IT系マスコット群雄割拠の昨今、D言語くんのプレゼンスが下がっていると言える…でしょうか?
すべてのD言語くん情報を補足すべく、今回はbotのアップデートを計画します。

やりたいこと

例えば以下のツイートですが、明らかにD言語くんに関するツイートですが、ハッシュタグ#DLangMan がなければ現在のD-man botは捕捉できません。

これをハッシュタグなしに捉えるために、今回は画像から文字認識を試みます。

文字認識

まず文字認識の方法ですが、Tesseract OCRが使えそうなのでインストールして使ってみます。

$ sudo apt install tesseract-ocr tesseract-ocr-jpn
$ tesseract --list-langs
List of available languages (3):
eng
jpn
osd

試しにローカルにダウンロードした上記の画像を認識してみます。

$ tesseract Cli1sWqVYAE2ZhW.jpg - -l jpn
Warning. Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 253


フォロー

@simd_nyan
#dland enthusiast, D-man evangelist

一
D-man bot                     人2
@d_man_bot
D-man bot is written in D Programming
Languade.

dlang comic strips

\ Q@DlangGuy
Someone had to do it.

揚   John D. Cook
1



《@JohnDCook
Mathematician, consultant, entrepreneur

テ GTNTechnicalStaffin
ロTN                         9
em   @⑥gotechnow
Dallas IT jobs and technical staffin
recruiting. Recruiter. Headhunter

期待通り、 D-man@d_man_bot が認識できました。

おわりに

このまま使えそうなので、あとはタイムラインに流れる画像をダウンロードして文字を認識し、D言語くんに関する文字列を含む画像の元ツイートをRTするよう実装するだけです。
次回botのアップデートをお楽しみに!

5
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
0