はじめに
みなさん、最近のトレンドを論文から知りたいな~というときどうしていますか?
論文を片っ端から読み漁ることができたらそれが理想ですが、論文数は毎日大量に発表されるし、どれを追えばいいのか......
ということで、arXivで発表されている最近の論文からキーワードを分析し、トレンドワードをslackに投稿する機能を作ってみました!
#完成例(このようにSlackに投稿します!)
上から順にトレンドワードベスト15を投稿しています!(CS.AIカテゴリー内)
#作成の流れ
- arXiv API で論文情報を取得
- TF-IDFを用い、トレンドワードを取得
- IFTTTを用いて、webhooks経由でslackへ投稿
今回は、カテゴリー「CS(Computer Science)」の中でtf-idfで取得した上位の単語をトレンドワードと定義し、CS.AIのトレンドワードを表示するものを作成します!
1. arXiv API で論文情報を取得
今回取得する論文としては、arXivが取得することにしました!
理由は、主に2点です。
- 論文としての情報が早い(トレンド性が高い)
- APIが整っているため、データを取得しやすい
arXivAPIでは多くのデータが取得できますが、今回用いるのは、Abstractの文章からトレンドワードを分析していきます!
2. TF-IDFを用い、トレンドワードを取得
今回は、CSのカテゴリーについて、TF-IDFを行いました。ちなみに、CSのサブカテゴリーいくつあるか知ってますか?(著者は数えたことなかったのですが、想像以上でした……)
なんと、40カテゴリー!!
これだけのカテゴリーをイチから見て行っては日どころか年も暮れてしまいますよね(笑)
この事実を知り、より一層この分析を完成させたくなりました!
(参考)
CSのカテゴリー一覧
3. IFTTTを用いて、webhooks経由でslackは投稿
IFTTTを用いて、プログラミング上でリクエストを送るのをトリガーにして、リクエストを受け取ったらSlack へ投稿する仕組みにしている。(結構シンプルな作りで作れるので便利です!)
##完成
この3ステップで、arXivのトレンドワードをSlackに投稿することができました!
下の写真は、上の完成例とは別の日のトレンドワードです。
#おわりに
Slackを見るだけで、最近多く出ている論文のテーマは何かな~というのがわかると便利ですよね。論文を読み漁り続けるのは、難しくてこの投稿をチェックするだけならハードルも下がる!と思うので、著者も定期的な情報キャッチアップツールとして使えたらと思っています。
今回、作成した機能は実際に東海人工知能研究会(TAIR)のSlackで実装しています!学部生・院生で興味のある人がいれば招待できればと思うので、twitterからフォロー+DMでご連絡ください!
※東海人工知能研究会(TAIR)は、東海地区を中心にAI・機械学習に興味のある学生のためのコミュニティです。