ディップ株式会社アドベントカレンダーの25日目です。
Data Design Lab. Data Brain課の@10shimizu10と申します。
去年まで、計算社会科学という分野を専門とする修士の学生をしていました。
この記事では、新卒の自分がデータサイエンスの業務をする上で読んでおいてよかった本を紹介したいと思います。
自分が研究していた分野である計算社会科学はデータサイエンス、ソーシャルサイエンス、コンピュータサイエンスの複合領域なので、せっかくなので、それぞれの分野から役に立った本を紹介したいです。
データサイエンス
機械学習のエッセンス
データサイエンス初心者に一番おすすめしたいのが、こちら『機械学習のエッセンス』になります。機械学習に必要最低限の微分積分、線形代数、Pythonについて最短ルートで学ぶことができます。
また、スクラッチで線形回帰、SVM、K-means、主成分分析などの実装を学ぶことができる点もおすすめです。
本質を捉えたデータ分析のための分析モデル入門
『機械学習のエッセンス』で機械学習の基礎知識を身に着けたら、『分析モデル入門』を読んで、幅広い手法を知るがおすすめです。こちらの本では、BARTなどの深層学習モデルから階層ベイズモデルなど幅広く解説されています。実務での引き出しが増えるのでおすすめです。
ゼロから作るDeep Learning 3
最後におすすめしたいのが、『ゼロから作るDeep Learning 3』になります。『分析モデル入門』を読んで深層学習の手法をある程度知ったら、それを実行するライブラリを実装する技術について、この本で勉強するのがおすすめです。分析用ライブラリを実装する本はなかなかないので貴重な本です。
自分はこの本を読んで、オブジェクト指向とテストの仕方について学びました。
ソーシャルサイエンス
入門 計量経済学
大学院生時代の研究では、単に有意差がでたかどうかに着目していましたが、ビジネスの世界では独立変数が目的変数にどれくらい影響を与えているのかという係数の解釈、そしてその効果を精確に推定することの必要性が増してきたことと実感しています
『入門 計量経済学』では、例えば、少人数制学級を題材に、クラスにおける生徒数を減らすとどの程度テストの点数が上がるのかといった感じで事例ベースの解説がされているので、実践的で役立つ内容となっています。
横断面データに関する分析モデルだけでなく、時系列データやパネルデータに関する分析手法も載っており、時系列分析における因果推論など興味深い内容も扱っているのでおすすめです。
因果推論入門
『入門 計量経済学』で計量経済学の基礎と因果推論の初歩的な知識を学んだら、『因果推論入門』(通称、ミックステープ)を読むのがおすすめです。こちらの本では、Rubinの潜在反応モデルとPearlの構造的因果モデルの両方について学ぶことができます。
ビジネスデータサイエンスの教科書
『ビジネスデータサイエンスの教科書』は本記事で紹介する本の中で最もよかったと思う本です。こちらの本では、計量経済学や因果推論に加えて、機械学習の手法についても扱っており、さらにそれをAmazonのバイス・プレジデントであるMatt Taddyがビジネスにおいて役立つ仕方でアレンジした内容となっています。
具体的には、ブートストラップ法を使ってモデルの不確実性を推定したり、大量の独立変数をLassoで扱ったり、RでMapReduceする仕方についてや、誘導型モデルだけでなく構造型モデルについても触れており、とにかく最強の内容となっています。
また、テキスト分析の手法についても扱っており、開発者自身による多項逆回帰の解説が読めるのもいい点です。
Text as Data
弊社では、数多くの求人を取り扱うので深層学習を用いた自然言語処理だけでなく、計量政治学・計量経済学的なテキスト分析手法も実務では非常に力を発揮しています。そうした高度なテキスト分析の手法を体系的に学べるのが本書、Text as Dataになっています。
特に、テキストデータを用いた推論についても触れており、テキスト分析における最先端の内容となっています。
コンピュータサイエンス
Linuxのしくみ
こちらはLinuxの仕組みから地続きで仮想化技術やコンテナについて解説されているので勉強になりました。企業で働くようになってから、dockerなども使うようになったので、読んでおいてよかったです。
データ指向アプリケーションデザイン
こちらは、データ基盤を支える技術とも言えるような体系的な内容となっています。データベースの仕組みから、レプリケーションやパーティショニングなどの分散データの技術について解説されており、具体例もTwitterでどのようにツイートの配信を実装するのがいいのかや、LinkdInを題材にどのようなデータモデルがいいのかなど身近なサービスを事例にしているのがよかったです。
Professional Data Engineer資格を取得する上でも、この本を読んで技術的な基礎知識があったので、過去問演習をスムーズにすることができ、合格することできました。
機械学習システムデザイン
こちらは、スタンフォード大学の授業が元になっていて、分析モデルのデプロイのイメージを掴む上でよかった本です。第3章が『データ指向アプリケーションデザイン』のダイジェストになっているのもいいです。
特に記憶に残ったのは、データの予測精度が下がる理由として、データ分布のシフトを取り上げていた点です。
- 共変量シフト: P(X)は変化するが、P(Y|X)は変化しない
- ラベルシフト: P(Y)は変化するが、P(X|Y)は変化しない
- コンセプトドリフト: P(Y|X)が変化するが、P(X)が変化しない
読んでいて、機械学習における予測タスクも因果推論のような説明タスクに近づいてきている印象をもちました。
あとがき
データサイエンティストとして、就職する上で下記の記事は非常に役立ったので紹介しておきます。
文系学部から理系大学院に行ったので、未経験文系からのスタートだったのですが、結局は3年ほどかかってしまいました。
最後に、下記に弊部署の募集ページを貼っておきます。