機械学習の論文を読んでみたいけど難しそう、という時に見るサイト

  • 372
    いいね
  • 8
    コメント

機械学習の基礎はそれなりに習得し、次のステップとして論文を読んでみたい、実装にチャレンジしてみたい、という方も多いのではないかと思います。

ただ、機械学習の論文といってもどこから読んでいいのか、興味がある論文を見つけるにしても英語のAbstractを眺めて行くのはちょっとつらい・・・という方のために、ポータルサイトを作りました。

arXivTimes Indicator

arxivtimes_top.png

以前、機械学習に関わる論文の要約を共有するGitHubリポジトリBotを作成したのですが、そこでの投稿内容をまとめて見ることができます。

ジャンル別に参照可能な他、

select_genre.png

Pocketをお使いであればPocketへの登録も可能です。

pocket.png

arXivTimesは、機械学習の研究動向に関する集合知を形成することを目的としています(日本語で参照可能な)。
そのため、今回のポータルの作成を機により多くの投稿をしてもらい、また要約の質を高めて行くためにどうしたらいいかあれこれ検討をしました。その工夫についてもご紹介します。

投稿を募るために

arXivTimesのGitHubリポジトリに一件でも要約を投稿していただくと、本ポータルサイトから個人ページの参照が可能になります。

individual_page.png

こちらの個人ページでは、これまでの投稿数と総計スコア(スコアについては後述します)が参照できます。左の円グラフでは投稿している論文の分野別の割合が参照でき、どんな分野にその人が関心を持っているのか、精通しているのかがわかります。右のグラフは月別の投稿件数を示しており、横線で引かれている「200/year line」を毎月超えると年間200本読んだことになります。論文読みの進捗管理などにお使いいただければと思います。

ちなみに、まだ投稿していないと以下のような感じになります。個人ページの獲得を目指し、まずは一件投稿していただければ!と思います。

not_post_yet.png

投稿はヘッダーのボタンから可能です。

post_article.png

GitHubのIssueとしてまとめを共有しているため、Issueを投稿する形でまとめを投稿します。Issue Templateがあるため、それに添いまとめを書いていきます(フォーマットはこちらをベースに簡易版にしています)。ただ、最低限「一言で言うと」「論文リンク」「著者/所属機関」があればかまいません。

投稿の質を高めて行くために

とはいえ、投稿の正確性というのも担保したいと考えています。そのため、良い要約になっているかどうかを評価したい・・・のですが、内容の正確性やわかりやすさを評価することはとても難しいです(テキスト量があまり多くないので、以前の手法をそのまま使うことは困難でした)。

そのため、現在は機械的にとれる人の評価、具体的には投稿のツイートにつけられたいいね+2 *リツイート数を点数として算出した偏差値を表示しています。リツイートを2倍にしているのは、人に広めても問題ない内容と判断されたことをより重視しようという意図です(2倍という値は適当ですが・・・)。こちらが"score"として表示されている値になります。

score.png

投稿のかなり目立つ位置に表示していますが、これは内容の正確性を期していきたいというスタンスの現れです。ちなみに私の投稿は結構多いですが、ご覧の通り良くないスコアのものもあります。投稿する際には誤りがないよう気を使っていますが、それでも間違いが出てしまうことは往々にしてあると思います。

現在投稿されたIssueにはコメントがほとんどついていませんが、投稿に対する指摘、また内容についてのディスカッションなどが行われるようになれば要約の評価につなげることができます。そのため、ぜひ投稿についてのコメントなどを積極的に頂ければと思います

Welcome Contribution

今回作成したポータルサイト、arXivTimes IndicatorはGitHub上でソースコードを公開しています。

arXivTimesIndicator

(Starをいただければ励みになりますm(_ _)m)

ぜひご要望などあればIssueにてご連絡いただければと思います。もちろん修正のPull Requestも歓迎しております。
まだ対応はしていませんが、研究室や会社などで同じように読んだ論文を管理したいという場合、arXivTimesのGitHubリポジトリをforkして頂き、中身のurlを書き換えれば独自のポータルサイトとして運営できると思います(scoreの算出部分がちと問題ですが)。

機械学習において、「チュートリアルのその次」のステップを踏み出す一助になればと思います。また、既に次のステップに踏み出されている方はご投稿お待ちしております!