はじめに
この文章のターゲット
この記事は、S. Keshav 著の How to Read a Paper という論文をラフに日本語に訳してまとめたメモです。基本的な文章の流れや内容はそのままですが、ところどころ改変 (表現を柔らかくフランクにしたり削ったり) していますので、原論文と見比べながら読んでください。
論文の読み方がイマイチ分からない人が読むと絶対に何かの発見があると思います。
論文の読み方 和訳
タイトル、著者
タイトル: How to Read a Paper
バージョン: 2016年2月17日
著者: S. Keshav
所属: David R. Cheriton School of Computer Science, University of Waterloo Waterloo, ON, Canada
Introduction
研究者であれば、毎年ものすごい時間を割いて論文を読むことになります。効率良く読むことは非常に重要ですが、それをどうやるかというのを"教えてもらう"機会はまぁないでしょう。膨大な数のトライアンドエラーを繰り返し、ものすごい努力を注いで、イライラをためながら少しずつ自分で身につけていく以外に選択肢はありません。
私は"3周ルール" (The Three-Pass Approach) という非常にシンプルなアプローチを長くやってきました。論文の全体を見渡す前に必要以上に細かく見てしまうようなことはなくなるし、読むのにどのくらいの時間が必要なのかも分かるようになります。もっと言ってしまうと、持ち時間に応じて読む深さを変えることだってできます。
3周ルール
論文の初めから終わりまで一本道を作るように読もうとしてしまうのはあるあるですが、そうではなく、3周まで読むというのがここで大事な考え方です。3周のうち1周1周に目標があります。
1周目は、全体として何がしたい論文なのか大体掴むこと
2周目は、その論文がしている具体的な中身を掴むこと
3周目は、深くまで理解するための細かい読み
1周目
1周目は鳥になって論文という森を上から眺めます。だいたい5分から10分くらいかけるイメージで、この論文を読み進めるか、それともやめて別のを読むかも決めちゃいましょう。
- Title、Abstract、Introduction だけはキッチリ読む
- 各章、節、項の見出しだけ読む。ほかは全部無視
- 数式とかがあったらチラ見してみる。どんな知識が必要かを推し量る
- 結論を読む
- 参考文献を流し読み。自分が読んだことのあるやつがあったら心の中でチェックマーク
これで1周目は終わりです。この5つが終わったら、以下の5個の C に答えられるようになっておきましょう。
- Category: どういう種類の論文?(何かを測定したのか、もうあるものを分析したのか、研究用に作ったツールの説明なのか)
- Context: それと関連のある他の論文には何があるか?課題解決の根底にある理論は何か
- Correctness: 論文内の仮定、仮設は正しそうか
- Contributions: んで、その論文があると何ができるようになるの?
- Clarity: ちゃんとした書き方がされているか
これだけわかっていれば、読むか読まないか決めらたりします。もっというと、印刷しなくて済んで世界の森林を守れたりもするかもしれないわけです。
というのも、その論文が面白そうだと思えなかったり、まだ知識足りなくて読むのが早いかなと分かったり、もしくはマトモな論文じゃねえなと判断できたりすることがあるからです。今のところは研究分野とは違うな、だけど将来繋がってくるかも、みたいな論文にはこの1周で十分です。
ついでに言うと、逆に自分が書く側になったとき、セクション名や Abstract はめちゃくちゃ重要だし、本当に気合を入れて練らなければいけないということです。読者が、この1周目のようにサラッと5分で目を通したときに要点が伝わらなかったら、まぁ読んでもらえるわけありません。そのようなわけで、概要を図1枚で表したもの (graphical abstract) があったりするととても良くて、多くの人に読んでもらえることになります。
2周目
2周目では、より深くまで気を配って読みます。でも、証明などの細かいことは無視です。
キーとなる考えや思ったことを、読みながら余白に書いていくのは結構アリです。ある有名な学者 (Dominik Grusemann) は「分からなかった専門用語や、著者に質問したいことは書いておきなさい」と言っています。論文を審査する立場になったとき、review でこれらのメモ書きがいい仕事をするからです。
- 図、図表、その他イラストなんでも、をよく見る。グラフには特に注意。軸にはきちんとラベルが書かれているか、エラーバー(誤差や測定の不確かさを表す)はちゃんとあるか。結論は統計的に意味のあるものか。こういうあるあるなミスが、本当に優れた論文と急いで書いたようなしょうもない論文との差になる
- 関連するまだ読んでいない参考文献があったら、時間があったら読んでみる用にそれを控えておく。その論文の背景をより知るのにいい方法
この2周目は、かなり慣れてくると1時間もあれば終わると思います。これが終わったら、論文の中身を掴んでいる状態でありたいところ。その論文の主眼がエビデンスと共に要約できて、誰かに説明できるようでありたいです。このくらい細かいところまで読んでいれば、"興味はあるけど自分の研究分野ってわけじゃない論文"くらいにはちょうどいいです。
2周目で終わりまで読んでも、論文の内容が理解できないこともあります。理由としては、そのテーマが自分にとって分からない専門用語、意味不明な略語ばっかりの未知の分野だからって可能性があります。他にも、著者の証明や実験手法が理解できないものだったりするかもしれません (そうなると論文の大部分は分からないでしょう)。また、著者が悪く、本当に正しいかも分からないような主張をしていたり、定義していない言葉や変数を使っていたりすることだってあります。
また、夜遅くて自分が疲れているってこともありえます。
ここでの選択肢は、
(a) 論文はもう無いものと考えて、それでも自分の将来に全く影響がないと祈る
(b) 背景知識を得られるような他の文書を読んだりしてから、またあとでその論文に戻ってくる
(c) もう気合で押し切って3周目に進む
のうちのどれかになります。
3周目
その論文を完全に理解するには、3周目に行く必要があります(特に review するときは)。ここで大事なことは、読みながら自分で頭の中にその論文を作ってみるということです。どういうことかというと、著者と同じ仮設を立て、論文の内容を能動的に再構築するという感じです。頭の中で作った自分の論文と実際の論文を比べることで、その論文の画期的なところだけでなく、抜けているところや書くべき考えが見つかります。
この周では、マジで細かいところに気を配らなきゃだめです。一つ一つの主張ごとに、その主張が何であるのかを考え、批判的な目で読みましょう。加えて、ここは自分だったらどう書くかなというのも考えるべきです。
こうして脳内の自作論文と紙として目の前にある論文を比べることで、深い洞察や考えが証明に組み込まれ、良い表現が論文に編み込まれていきます。また、将来にも使える文章表現の幅が広がっていくでしょう。
この3周目では、その後の研究で何ができそうか、のようなアイデアも書いておくのが良いです。
これらをやっていると、初学者では何時間もかかります。慣れても1時間か2時間以上かかってしまうかもしれませんが、まぁしゃーないです。
この周の終わりには、記憶だけからこの論文の構造が再現でき、論文の強みや逆に弱いところについても分かっているのがよいでしょう。
とりわけ、明確には書かれていない主張や加えるべき関連研究の引用、また実験や分析手法について問題となる可能性がある点などを指摘できるようになっているべきです。
文献調査
文献調査をしているときにも、論文を読む力が大事になります。何十個も論文を読まなきゃいけないし、もしかしたらそれが今まであまり関わってこなかった分野だったりするときがあります。どんな論文を読んでみるといいのか、3周ルールを活用する方法を書きます。
まず、学術論文の検索エンジン、たとえば Google Scholar や CiteSeer で、良いキーワードを用いて、最近のめちゃくちゃ引用されている論文を3個から5個ぐらい選びます。
例の1周目、だけをそれぞれの論文でやって大意を掴み、関連研究の節を読みましょう。すると、最近の論文の傾向が分かったり、運がいいとサーベイ論文が見つかったりもします。
見つかったら、もう終わったようなものです。ハッピー。おめっとう!!
そうでなかったら、それらの論文で共通する被引用論文、繰り返し出てくる著者の名前を見つけましょう。それがその分野で大事な論文であり、重要な研究者ということになります。ダウンロードしてストックしておきましょう。そしたら、その研究者のウェブサイトを見てみて、どこに論文を投稿しているのかを確認してみます。こうすると、その分野での一番ビッグな、箔のつく国際会議が分かります。著名な研究者は、そういうところにしか出しません。笑
そして、その次の3つ目のステップが、その国際会議のウェブサイトを見ることです。どんな感じでその分野の研究が推移しているのかを確認しましょう。ちょっと流し読みをしてみると、最近の優れた関連研究が分かるものです。これらの論文と、最初にストックしておいた論文が手元に来れば、最初の文献調査は終了です。その論文たちを対象に、3周ルールのうちの2周をしましょう。もし、それらの論文がとある重要な論文を引用していて、でも自分はそれを見たことがなかったりしたら、読みます。で、こんな感じで必要に応じてこれを繰り返していけばいいわけです。
関連研究
こんな感じで、論文の読み方の論文を読んでみたかったら、ほかにもいい論文がありますよ
謝辞
最初の原稿は学生たちが書いてくれました!
また、なんかフィードバックあったら連絡ください!
参考文献
5つ
おわりに
英語ネイティブでないと、これほどスムーズには読めないかもしれません。ですが、こんな感じのイメージをもって、読んでいきたいものです。
コンピュータサイエンスを専攻したアカデミック出身のエンジニアの方や、逆に文系エンジニアの方、一度何か論文を読んでみると面白いと思います。
わたしも、もう同じ論文を13周しても理解できないなんてことがないようにします。
小話
学術とビジネスとの距離
リモートワークに切り替えてから、世界の最前線を走るエンジニアの方々は海外の論文を読む機会が増えたのではないでしょうか。わたしは特には増えていません。
IT はアカデミックな領域とビジネスの領域との距離が近い分野です。
機械学習の研究開発に企業が多額の投資をしているのはよく知られていますし、学術的に新しい技術をビジネスでのウリにしたベンチャーが多く誕生しているのもその現れです。
Google も
Google は、創業者である Sergey Brin と Larry Page の二人がスタンフォード大学在学中の1998年に発表した論文 The anatomy of a large-scale hypertextual web search engine で説明される検索エンジンがルーツです。この論文は、
In this paper, we present Google, a prototype of a large-scale search engine which makes heavy use of the structure present in hypertext.
という一文から始まり、Google というサービスが何であるかの説明が必要だった当時の世界の状況を物語っています。世の中の隅々まで浸透している巨大企業 Google にはこんな始まりがあったんだ、というのを見たような感じがして、めちゃくちゃ興奮しませんか?
また、もっと言えばそれは、 Larry Page がこれまた1998年に発表した The PageRank Citation Ranking: Bringing Order to the Web での PageRank というバリバリにアカデミックなアルゴリズムを検索エンジンに応用したものです。
ちなみに、前者は被引用件数が19,300件、後者は13,300件あり、もうとんでもないお化け論文となっています(2020年5月10日現在)。Elon Musk や Bill Gates のように大学なんか全く関係なしにビジネスの道へ進んだ人もいれば、学者として最強レベルの論文を書いてそこからビジネスへ進むような人もいるということで、とても面白いです。
ちなみに、当然ですが、それほどの被引用件数の論文は研究者一本でやっていく人でも出せません。研究者として、ビジネスマンとして、 Google 創業者の二人は最強の二刀流だったのです。