はじめに
近年盛り上がりを見せている人工知能領域は学術機関だけでなく企業や自治体まで注目しています。
この領域の学術的祭典とも言えるのが年1回開催される人工知能学会全国大会です。
今回は何番煎じかわからない出涸らしのような記事ですが
オンラインで開催された人工知能学会全国大会2020にどのような組織が発表していたか確認することで、
近年の学術的祭典を盛り上げている組織を Python を利用して分析してみます。
触発されて書いてみたものなのでお手柔らかにお願いします。
データ
今回利用するのは下記の記事で利用している github 上に公開されている集計データです。
人工知能学会2020&2019年の集計(データセットあり)
この記事の執筆時点にてタグによるバージョン管理がされておりましたので v0.2.0 を利用します。
ディレクトリの構成は下記の通りです。
jsai_base は人工知能学会全国大会の大会プログラムから作成されたデータで
jstage_base は J-STAGE の予稿集から作成されたデータと説明されています。
2020 年はまだ予稿集が J-STAGE にないので大会プログラムから作成された jsai2020.json を利用します。
./
├── jsai_base
│ ├── jsai2009.json
. .
. .
. .
│ ├── jsai2019.json
│ └── jsai2020.json
├── jstage_base
│ ├── jsai2001.json
│ ├── jsai2002.json
. .
. .
. .
│ ├── jsai2002.json
│ └── jsai2019.json
└── README.md
中身を確認するとこんな感じ。
README.md の Note を見ると下記の記載がある通り、org_jp と authors_org_jp が含まれている。
この org_jp の value が authors_org_jp を紐づいているようなので、これを集計すれば全体の組織が集計できそう。
jsai_base/jsai2020.json についてのみ和名により組織名の表現揺れを統一した下記キーを追加
org_jp : 組織名
authors_org_jp : 組織名に紐づく著者名
In [1]:jsai2020['[1A1-PS-1-01]']
Out[1]:
{'url': 'https://confit.atlas.jp/guide/event/jsai2020/subject/1A1-PS-1-01/advanced',
'category': 'プレナリーセッション',
'sub_category': {'1': '基調講演・招待講演', '2': 'オープニング・基調講演'},
'section_num': '[1A1-PS-1]',
'section_title': 'AI技術を活用する社会のデザイン',
'schedule_num': 407,
'like_num': 24,
'comment_num': 0,
'keywords': [],
'title': 'AI技術を活用する社会のデザイン',
'org': {'1': '札幌市立大学学長'},
'co-author': ['中島 秀之'],
'authors_org': {'1': ['中島 秀之']},
'org_jp': {'札幌市立大学': 1},
'authors_org_jp': {'1': ['中島 秀之']}}
ちなみに url のリンクから確認すると、category に分類されているのが プログラムの区分にあたるよう。
データを集計すると以下の通り。組織の集計に参加者交流会を含めるのもどうなの?と感じるが
ひとまず全プログラム区分について分析する
'プレナリーセッション': 4,
'企画セッション': 14,
'ナイト/ランチョン': 9,
'インダストリアルセッション': 5,
'一般セッション': 444,
'オーガナイズドセッション': 202,
'International Session': 85,
'チュートリアル': 2,
'学生企画': 2,
'近未来チャレンジセッション': 2,
'インタラクティブセッション': 188,
'参加者交流会': 1
最も大会の発表に貢献した組織
発表に貢献した組織 = 大会を盛り上げている組織ではないですが
細かいこと気にせず全プログラム中 (958件) 最も発表に貢献した組織を集計します。
集計方法1
ここでは 1 発表あたりの組織を単純に集計します。
例えば、下記の場合、'ABC大学' および 'DEF大学' をそれぞれ 1発表があったと集計します。
{'org_jp': {'ABC大学': 1, 'DEF大学': 1}
集計結果1
集計結果は下記の通りです。
全 447 組織中のトップ10
組織名 | 区分 | 集計数 |
---|---|---|
東京大学 | 国立大学 | 102 |
理化学研究所 | 国立研究開発法人 | 53 |
産業技術総合研究所 | 国立研究開発法人 | 42 |
早稲田大学 | 私立大学 | 39 |
名古屋工業大学 | 国立大学 | 33 |
名古屋大学 | 国立大学 | 33 |
筑波大学 | 国立大学 | 31 |
大阪大学 | 国立大学 | 30 |
慶應義塾大学 | 私立大学 | 29 |
東京工業大学 | 国立大学 | 24 |
958件中、東京大学が絡むのは102 件とは多いですね。
次いで多いのが理化学研究所ですが、それでも東大の半分です。
東大がぶっちぎりで大会を盛り上げている組織でしょう。
集計方法2
ここでは 1 発表あたりの組織に筆頭著者および共著者を加重して集計します。
例えば下記の場合、org_jp の "ABC大学" を authors_org_jp で確認すると 2 名の著者が含まれるので、
下記の発表での貢献組織は ABC大学 × 2 で集計します。
{'org_jp': {'ABC大学': 1},
'authors_org_jp': {'1': ['***', '***']}}
また、著者によっては複数の組織に所属している場合があります。
その場合は著者の所属数に応じて重みを分割します
下記の発表での貢献組織は ABC大学 × 1.5, DEF機構 × 0.5 で集計します。
{'org_jp': {'ABC大学': 1, 'DEF機構': 2},
'authors_org_jp': {'1': ['太郎', '花子'], '2':['花子']}}
集計結果2
集計結果は下記の通りです。
全 447 組織中のトップ10
組織名 | 区分 | 集計数 |
---|---|---|
東京大学 | 国立大学 | 237.17 |
早稲田大学 | 私立大学 | 107.50 |
名古屋工業大学 | 国立大学 | 100.33 |
産業技術総合研究所 | 国立研究開発法人 | 87.83 |
慶應義塾大学 | 私立大学 | 76.50 |
大阪大学 | 国立大学 | 71.50 |
エヌ・ティ・ティ・コミュニケーションズ株式会社 | 企業 | 69.00 |
理化学研究所 | 国立研究開発法人 | 68.25 |
名古屋大学 | 国立大学 | 68.00 |
筑波大学 | 国立大学 | 58.83 |
引き続き東京大学が多く、次いで早稲田大学大学が多かったです。
企業としては NTT コミュニケーションがランクインしていました。
まとめ
人工知能学会全国大会で発表している組織について集計してみました。
今回は簡単な集計だけでしたが、過去の大会についてもデータがあるので、
参加組織の変化や Title や Abstract 、キーワードなどの変化など他にも分析の余地はあると思います。
Python を利用して記事を書くつもりが、単純な集計なため記載することがなかった。。。
次回以降の記事については自然言語系のライブラリを利用して書こうと思います。