はじめに
2021年のD言語くん Updateによると、今年は441件と例年と比較して大きく減少したことが明らかになりました。
2017: 2078
— simd (@simd_nyan) December 2, 2021
2018: 992
2019: 866
2020: 886
2021: 441
IT系マスコット群雄割拠の昨今、D言語くんのプレゼンスが下がっていると言える…でしょうか?
すべてのD言語くん情報を補足すべく、今回はbotのアップデートを計画します。
やりたいこと
例えば以下のツイートですが、明らかにD言語くんに関するツイートですが、ハッシュタグ#DLangMan
がなければ現在のD-man botは捕捉できません。
32人しかいない Walter Bright さんにフォローされてるアカウントの最新3件がこれっておもしろすぎません? #DLangMan pic.twitter.com/9zTGnIuEpz
— 大堀龍一 (Ryuichi OHORI) (@__DaLong) June 22, 2016
これをハッシュタグなしに捉えるために、今回は画像から文字認識を試みます。
文字認識
まず文字認識の方法ですが、Tesseract OCRが使えそうなのでインストールして使ってみます。
$ sudo apt install tesseract-ocr tesseract-ocr-jpn
$ tesseract --list-langs
List of available languages (3):
eng
jpn
osd
試しにローカルにダウンロードした上記の画像を認識してみます。
$ tesseract Cli1sWqVYAE2ZhW.jpg - -l jpn
Warning. Invalid resolution 0 dpi. Using 70 instead.
Estimating resolution as 253
フォロー
@simd_nyan
#dland enthusiast, D-man evangelist
一
D-man bot 人2
@d_man_bot
D-man bot is written in D Programming
Languade.
dlang comic strips
\ Q@DlangGuy
Someone had to do it.
揚 John D. Cook
1
《@JohnDCook
Mathematician, consultant, entrepreneur
テ GTNTechnicalStaffin
ロTN 9
em @⑥gotechnow
Dallas IT jobs and technical staffin
recruiting. Recruiter. Headhunter
期待通り、 D-man
や @d_man_bot
が認識できました。
おわりに
このまま使えそうなので、あとはタイムラインに流れる画像をダウンロードして文字を認識し、D言語くんに関する文字列を含む画像の元ツイートをRTするよう実装するだけです。
次回botのアップデートをお楽しみに!