こんにちは、事業会社で働く新卒データサイエンティストです。
今回は、私が学生時代に学んできた統計・計量経済学系のテキストを、感想や印象と共に紹介します。データサイエンティストの要件は企業によって異なりますが、私は計量経済学的なアプローチを学んで今の仕事に就いています。参考になれば幸いです。
学部2年前期(2020年)
計量経済学の第一歩
私が初めて計量経済学なるものに触れたテキストです。授業のテキストに指定されていました。最小二乗推定量の導出や、推定量が満たすべき望ましい性質、中でも不偏性が満たされるためにはどのような仮定を満たさないといけないか、というところから学んでいったのを覚えています。
本書では操作変数の考え方も紹介されていて、説明変数を「間接的に」動かすというアイデアに感心した覚えがあります。
学部2年後期
Mastering 'Metrics
学部4年生向けの授業のテキストに指定されていました。因果推論のアプローチを、できるだけ数式を使わずに説明しています。今思うと、この授業を学部2年の後期で履修したのは早すぎました。で、当時はテキストの内容もなんとなくしか理解できず…。必死で食らいついていったのを覚えています。
学部3年前期(2021年)
現代経済学の数学(上)
前期というか、夏休みに勉強しました。この頃に大学院進学を決めたので、そろそろ数学も勉強しないとなぁと思っていた時期です。
線形方程式の体系は行列で表現することができて、行列に逆行列が存在すれば解を求めることができることを身にしみこませました。ネットに丁寧な解答が落ちていたので、そこそこ真面目に章末問題を解いていた記憶があります。
学部3年後期
政治学と因果推論
ゼミで使用しました。当時の私のゼミの先生が執筆したテキストです。ポリティカル・サイエンスにおける研究例を紹介しながら、因果推論の考え方を紹介するテキストになります。差の差法の章で合成統制法について述べられているのがポイントかも。
Rによる実証分析
こちらもゼミで使用しました。Rを実際に動かしながら、因果推論の考え方を学ぶことができます。個人的にはマッチングについてしっかり説明されていたのがありがたかったです(逆にそれくらいしか記憶に残っていない)。
経済・ファイナンスデータの計量時系列分析
時系列分析の授業で指定されていたテキストです。時系列が定常でない(単位根過程)のとき、どのような手続きをとればよいのか詳しく書かれています。当時はそのありがたみをよく分からずに、まあそんなもんかと思って学んでいましたが、働き出した今では大活躍しています(ビジネスにおいては因果推論を適用できる状況が限られるので、時系列分析は非常に役立ちます)。
(浅野・中村)計量経済学
学部3年の春休みに勉強しました。大学院進学に向けた勉強のために選んだ感じです。回帰係数や残差の代数的な性質について述べられていて、目からウロコだったのを覚えています。パネルデータの変量効果モデルやランダム効果モデルについて学んだのもこの本でした。本格的にベクトル表記で数式が展開されるようになり、勉強がいっそう楽しくなってきた時期でした。
(末石)計量経済学
上述の浅野・中村に引き続き、こちらも春休みに取り組んだテキストです。2章で早くも操作変数法に入るというテキストで、なんだか鈍器でガツンと殴られたような気持ちになりました(テキスト自体は必要最小限の言葉と数式で説明されているので、薄いです)。ただ、操作変数法に関してこれまで学んできたテキスト以上に踏み込んだ解説がされていたので、非常に勉強になりました。
このテキストのポイントは漸近理論やブートストラップ、ノンパラメトリック法の章が入っていることでしょうか。テキストにも書かれているとおり、学部生が大学院の勉強を先取りするのに最適なテキストだと思います。
学部4年前期(2022年)
学部4年生になると、大学院の授業に出席していました。なので、学部上級・大学院レベルのテキストが多くなります。
Econometric Analysis
隣の経済学研究科のコアコースの計量経済学で指定されていたのがGreeneのEconometric Analysisでした。行列表記で回帰式から推定量を導いたり、何らかの性質を証明する練習をたくさんしました。今思うと、(計量経済学や因果推論に関わらず)幅広い分野の洋書テキストを自力でよむことができるようになったのは、このテキストのおかげかもしれません。
統計学入門
何をいまさら…という感じですが、私がこのテキストを読んだのは学部4年生の時でした。当時、学部上級レベルの統計学の授業を履修していたのですが、たまたまこのテキストに出会い、授業がこのテキストに基づいて進められていることに気づいてしまった、というくだりがあります(笑)。本質的なことばかり書かれていて、非常に良いテキストだと思ったことを覚えています。
学部4年後期
Introductory Econometrics
言わずもがな、Wooldridgeのテキストです。こちらはGreenと違ってベクトル表記というよりはスカラー表記で説明がされているので、順番としてはWooldridgeから入ってGreenに進むべきでしたが、履修の都合上こちらを読むのがあとになってしまった。英語で文章を書くのに良い練習となりました。学部3年生後半ぐらいでチャレンジしても良いかもしれません。
Econometrics
俗に言うHayashi(2000)。一般化モーメント法(GMM)の説明に力を入れている印象があります(というか、授業ではそれがメインどころだった)。操作変数(二段階最小二乗法)との関係や、過剰識別の調べ方なども書かれていて、勉強になりました。ノーテーションが特徴的だったので、これまでに勉強してきたテキストとの整合性を確認するのに苦労した記憶があります。
なお、GMMについては末石計量でも説明されています。
Mostly Harmless Econometrics
学部4年の春休み、大学院に進学する直前に取り組みました。とうとうこれに手を出すときが来たか…と思いながら望んだテキストです。大学院に進学する学部の友人3人で輪読しました。差の差法ではTWFEと飽和モデルの違いが説明されていたり、SUTVAについて言及されていたりと、痒いところに手が届く内容になっています。一方、回帰非連続デザインではまだノンパラメトリックRDが普及していない時代だったので、それに対する説明は少なく、線形性を仮定するパラメトリックなRDの解説にとどまっています。
データ解析のための統計モデリング入門
こちらも大学院に入る直前の春休みに読みました。ぽかぽかした気候の中、阪急某駅のフレッズカフェに通って読んだのを思い出します(どうでもいい)。線形モデルからスタートして、一般化線形モデル、一般化線形混合モデル、さらに階層ベイズモデルへと順番に読者をステップアップさせてくれる本です。シンプルでわかりやすい記述が特徴的だと思います。
大学院(2023年)
学部時代はもっぱら計量経済学を勉強していました。一方、大学院時代は(入社後を見据えてというほどではないものの、)ベイズやテキストデータ分析といった少し違う領域の勉強もしていました。
標準ベイズ統計学
赤色の表紙のカッコよさに惹かれて買ってしまいました。数式を使って丁寧に説明してくれるので、ベイズ統計学をしっかり学ぶ一冊として非常に良いと思います。逆に数式で読み進めるのが苦手、という方にはBDAをおすすめします。
当時は正直ベイズの何が嬉しいのかよくわからずに、観念的に学んでいましたが、働き出すとその有用性が身に染みて分かります…
統計学への確率論
理学研究科の確率論の授業を履修したときに、参考書として用いました。授業で扱ったところを主にさらい、分からないところはこのテキストを使って補いました。確率論のテキストはどれもそうだと思いますが、定理があって証明、の繰り返しなので良いトレーニングになりました。
トピックモデル
弊社のインターンで与えられた内容がテキストデータ分析だったので、勉強しました。主に潜在ディリクレ配分法(LDA)が紹介されていますが、他にも相関トピックモデルやディリクレ過程を説明する章もあります。もう一度勉強したい本の一つですね。
構造トピックモデルまでは踏み込んでいないので、これに関してはText as Dataというテキストが直観的に説明してくれています。
深層学習
こちらもインターン関連です。たまたま弊社オフィスを訪問した時、今の同僚から「深層学習は勉強しておいた方がいいよ」と言われたので急いで買いました(笑)。私にとって全く新しい分野だったので、ワクワクしながら読み進めたのを覚えています。ザーッとさらったので、もう一度腰を落ち着けて読みたいですね。
(西山)計量経済学
大学院の研究費補助プログラムでお金の使いどころに迷っていたところ、出会ったテキストです。実際に読み進めると、非常に明快で分かりやすい。学部時代に読んでおきたかったなぁと痛切に思いました。
このテキストの特徴は、一般に計量経済学の名を関して出版されるテキストの内容をミクロ計量として収録し、加えてマクロ計量として時系列解析の内容も収録しているところだと思います。マクロ計量の部分は計量時系列分析で補いながら読むと良いと思います。
Learning Microeconometrics with R
授業で指定されていたテキストです。授業というよりゼミに近かったので、履修者で輪読しました。実際にRコードを動かして、データの生成プロセスを追っていこうというスタンスのテキストになります。
回帰分析と操作変数法を最初に扱い、そのあとは需要関数の推定やGMM、オークション、混合モデルなど幅広い分野をカバーしているので、勉強になりました。
A Practical Introduction to Regression Discontinuity Designs
ノンパラメトリックRDの手法を使った実証分析で修士論文を書こうと思っていたので、その時に参考としたテキストです。当時はノンパラメトリックRDについて解説してくれているテキストが(私の知る限り)なかったので、このテキストを通して学びました。今では因果推論の計量経済学という素晴らしいテキストの中で解説されています。
統計学のための数学入門30講
大学院の同期・先輩4人で読みました。受験生がセンター試験で頑張っているんだから、というよく分からない理由で、センターの2日間、院生室にこもってひたすら写経していた記憶があります。統計学を学ぶ上で必要な数学のエッセンスがまとまっています。
Advanced R
最後にこちら。大学院修了間近の3月ごろに取り組みました。正直Rは「走ればそれでよい」精神でやってきたので、細部の構造について知ることなく過ごしてきました。このテキストではベクトルや関数といった基本的なところから、関数型プログラミングとオブジェクト指向プログラミングの違いまで詳しく説明されています。このテキストも時間があるときにもう一度取り組みたいです。
おわりに
以上、私が学生時代に勉強してきたテキストを紹介してきました。体系的な知識として定着しているかはさておき、 広くデータサイエンスと呼ばれる分野は積み重ねの学問なので、学生時代にステップを踏んで取り組めたのは幸いでした。
また、事業会社では必ずしも因果推論を行う環境が整っているわけではありませんし、頻度論を使うとも限りません。そういう意味では、幅広い分野に触れていたのは入社後の学習コストを下げるという意味で有意義だったと思います。