LoginSignup
14
8

More than 3 years have passed since last update.

自然言語処理の国際会議ACL2020の論文をPythonのarXiv APIを使って抽出

Last updated at Posted at 2020-04-26

はじめに

ACL2020の論文がarXivに投稿され始めたので、arXiv APIを使って(自分用に)リスト化してみました。

更新情報

  • 下記の論文リストを更新しました。掲載論文が102件→448件に増えました。(2020/06/10)

環境

  • python3.6.9
$ pip install arxiv
import arxiv
import pandas as pd

検索条件

Computation and Language カテゴリ内の論文で、comment欄に "ACL2020" を含む論文を抽出

APIの使い方はこちらのページを参考にしました。
- PythonでarXiv APIを使って論文情報取得、PDFダウンロード
- arXiv API User's Manual

# 検索クエリ
l = arxiv.query(query='(co="ACL2020" OR co:"ACL 2020") AND cat:cs.CL', sort_by='submittedDate')

# 関係の無い論文が含まれてしまったので、DataFrameにしてフィルタリング
df = pd.io.json.json_normalize(l)
acl_df = df[df["arxiv_comment"].str.contains("ACL", na=False)]
acl2020_df = acl_df[acl_df["arxiv_comment"].str.contains("2020", na=False)]

len(acl2020_df)
# 102件ありました

論文リスト(2020/06/10 現在)

arxiv APIでACL2020に採択(投稿)された論文を抽出してみた。
System demo paper, Student Research Workshop, long/shortが混じっています。

いくつか誤りが含まれている可能性があります。
参考程度にご利用ください。

参考

14
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
8