データサイエンティストについて調べると必要なスキルとしてエンジニアリング力、データサイエンス力、ビジネス力と言われているので、幅広く勉強するようにはしています。以下書籍、動画などもビジネス分野も含め幅広く整理してみました。まとめてみたら多すぎたので、目的に応じて少しでも誰かの参考になれば幸いです。
勉強するための本や教材を選ぶ際には、実際にデータサイエンティストやデータアナリストとして活躍されている方のオススメをいつも参考にしています。
本や教材で勉強する際は、1回目は分からないところが多いですが一通り目を通し、しばらくしてから再度読み返すことが多いです。2回目は理解度が上がっており、より楽しく勉強できています。
目次:
統計学
数学
AI・機械学習
プログラミング
データベース・SQL
開発ツール
ビジネス(全般)
ビジネス(データサイエンス)
ビジネス(マーケティング)
その他
統計学
書籍
統計学が最強の学問である
統計学をはじめて勉強する方におすすめ。統計学がビジネスシーンで実際どのように役立つのかイメージできます。
統計学がわかる
有名なハンバーガー本。ストーリー仕立てで非常に易しく説明されています。
統計学がわかる 回帰分析・因子分析編
上記ハンバーガー本の後続。回帰分析、因子分析を学ぶことができます。
統計学の図鑑
こちらもイラストを使用しイメージでわかりやすく解説されています。
統計学入門
統計学の赤本。自分は統計検定2級を受けた際に参考にしました。
統計学実践ワークブック
統計検定準1級の公式テキスト。統計検定準1級の範囲を全てカバーしており非常に幅広いですが、その分1つ1つの説明が(自分にとっては)少なく感じたので、他の教材なども使いながら読み進めると良いと思います。
データ解析のための数理統計入門
統計検定1級〜準1級向けに書かれた一冊。統計学実践ワークブックと合わせて読むと良さそう。
Rによるやさしい統計学
R言語の勉強のために購入しましたが、タイトル通り「統計学」の解説が分かりやすかったです。統計検定2級レベルの範囲かと思います。手を動かしながら学べるのでより理解がしやすい内容です。
データ分析の力 因果関係に迫る思考法
因果なのか相関をどのようにして判断すべきかを知りたいと思い、読みました。ランダム化比較実験が丁寧に書かれていて読みやすい1冊です。
効果検証入門 正しい比較のための因果推論/計量経済学の基礎
上記データ分析の力 因果関係に迫る思考法とが面白く、同様のテーマでより詳細に書かれているので読んでみました。
評価指標入門
様々な評価指標について、それぞれの長短やビジネス上の指標(KPI)と併せて考え、どの指標を使うのが良いか学べます。
実証分析のための計量経済学
計量経済学のは元々興味があり、その基礎を勉強するために読みました。個人的には2段階最小二乗法というものに初めて触れ興味深かったです。2段階最小二乗法は「逆の因果性」が生じる場合に使用する推定方法の1つです。「逆の因果性」とは、例えば、企業の業績を分析する際、「積極的な設備投資により業績が上がった」と因果関係を考えた場合、その逆、「業績が良いから設備投資をする余裕があった」という因果関係も考えられるというものです。
分析者のためのデータ解釈学
データをどう読み解くのか、データを集めて得られた結果をどう解釈するか。統計学の基礎知識として読みました。
データ分析のための数理モデル
機械学習を勉強していて、もっと数学を学びたいと思い読みました。各モデルについて数学的な裏付けが解説されています。
データ解析のための統計モデリング入門
多くの方がオススメしている本であり、私もまずは一読してみました。数理モデルのレベルで統計を理解するという趣旨で、統計検定準2級〜1級レベルの内容かと思います。名著と言われている本であり、自分もこれから何度も読み返したいと思います。
データ分析と意思決定理論
エビデンスに基づく政策決定、いわゆるEBPMに関する内容です。中長期的な将来に渡る政策(予算組みなど)に関する意思決定は、不確定要素が多すぎるため、点予測ではなく区間予測といった主張がされています。その他、税率と労働供給、死刑制度と殺人予測効果などの関係性をデータ分析・統計学的視点から分析がされています。社会問題や政策決定に興味がある方にはおすすめです。
因果推論の科学
因果関係があるとは何か、その歴史的経緯から知ることができる重厚な一冊(ページ数多め)。
因果関係と相関関係の違いについて、何となく理解していたようで想像以上に奥が深いと感じました。モンティホール問題やシンプソンのパラドックスなど有名な問題も詳細に解説されており、個人的にまた読み返したい一冊
動画
Udemy:独学者のための統計学応用講座
統計検定の学習に役立ちます。
↓
Youtubeチャンネル
米国データサイエンティストが教える統計学超入門講座【Pythonで実践】
統計検定2級レベルの内容を、Pythonでハンズオンで学べます。各単元で理論→コーディングの流れになっており、イメージを掴んだ後、実際に手を動かすことで楽しく学べます。統計学の基本のイメージを掴むには非常に分かりやすい講座です。
Webサイト
統計WEB -統計学の時間-
統計検定2級を受験する為にめっちゃ参考にしました。5周はしました。
統計検定2級の内容がカバーされています。練習問題もあるので、統計検定2級問題集と合わせて練習すればだいぶ力がつくと思います。
数学
書籍
数学ガールの秘密のノート シリーズ
自分は微分、積分、行列の3冊を読みました。対話形式で進んでいく形で、非常に易しい解説となっていますので、なぜそのような計算を何のためにするのかというところから理解ができます。
マセマシリーズ 線形代数
線形代数を勉強するため本を探しましたが、マセマシリーズの評価が高かったので買いました。演習問題は解いてません。今度は同じマセマシリーズの微積分を買おうかと思ってます。
マセマシリーズ 微分積分
統計検定準1級の勉強のために購入しました。
しっかり学ぶ数理最適化
最適化問題に興味があったので現在読んでいます。
実戦というより理論がみっちり学べます。結構数学が得意でないと読むのが辛いなと痛感しています。
動画
予備校のノリで学ぶ「大学の数学・物理」 (数学、統計学)
線形代数の勉強をしようと思いこの動画を参考にしました。自分はこの動画→マセマの本で線形代数を勉強しました。統計学についてもしっかり数式ベースで学べます。
映像授業 TRY IT (微分)
機械学習を勉強するのをきっかけに微分ももう一度勉強しようと観ました。
さすが教えるプロなので、説明が丁寧で易しく、非常に分かりやすいです。
映像授業 TRY IT (積分)
統計の勉強をするにあたり、勉強しようと観ました。上記「微分」と同様分かりやすいです。
AI・機械学習
書籍
人工知能は人間を超えるか
G検定を受験するにあたり読みました。著者は日本においてAI分野の第一人者として知られる松尾豊氏。AIとは何か、何ができるのか、AIの歴史から丁寧に解説されていて、AIに対する理解が進みました。
ディープラーニング G検定 公式テキスト
G検定の受験のために読みましたが、AIの基礎知識が分かりやすくまとまっており、読み物としても面白かったです。
Kaggleで勝つデータ分析の技術
機械学習の勉強のためデータ分析コンペに参加してみたいと思っていましたので、調べてみるとこの本がかなり評価が高かったので購入しました。初見は分からないところだらけで苦しい時もありましたが、実際にコンペに参加してみてから、改めて読むとめちゃくちゃ分かりやすさを実感しました。やっぱり理論→実践→理論を繰り返すと理解が進みますし、頭に定着します。
仕事で始める機械学習
機械学習プロジェクトの始め方、機械学習のアルゴリズム、システムへの組み込み、効果検証が解説されています。機械学習を始める際最初にすべきこととして、「機械学習をしなくて良い方法を考える」というのが印象的でした。
Pythonで始める機械学習
特徴量エンジニアリング、モデル、モデルの評価についての理論がまとめられています。最初読んだときは難しく感じ、ざっと目を通しただけでしたが、分析コンペに参加しだした後に再度読み込みました。まだ細かいところは理解が追いついてないですが、個人的にリファレンスとして今後使用していきたい本です。
動画
【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 初級編 -
微分と回帰分析について、どのように機械学習に使われているのか解説されています。パワーポイントではなく紙に手書気するスタイルです。めちゃめちゃわかりやすいです。
【キカガク流】人工知能・機械学習 脱ブラックボックス講座 - 中級編 -
キカガク流の続編。線形代数、重回帰について学べます。
Webサイト
米国データサイエンティストのブログ
統計学、Python、機械学習などデータサイエンス関連の内容がまとめられています。
易しく書かれているので、自分は最初このブログで一通りの概要を学びました。
SkillUp AI 2021年前半に読むべき機械学習/ディープラーニング最新論文26選
今まで英語の論文を読んだことがあまりなかったので、データサイエンスの勉強を機に読んでみようと思いました。今のうちから少しずつ慣れていきたいです。
コンペ
SIGNATE Quest / Gym
機械学習、Pythonについて手を動かしながら学べます。Questでは実際のコンペを題材にPythonの書き方や、機械学習のモデルが解説されており、こちらも手を動かしながら練習できます。
Nishika
こちらのデータ分析コンペ「中古マンション価格予測2021 夏の部」に参加しました。
Kaggle
言わずもがなデータサイエンティストの世界的コミュニティ。自分は初心者用のコンペでデータ分析・機械学習の練習中です。
プログラミング
書籍
Python実践データ分析100本ノック
機械学習の勉強をスタートさせた最初の1冊です。前処理からモデリングまでコードと説明が記されており、本を見ながら写経しました。現場に即した内容となっていると好評だったので買いました。Pythonの基礎を最初に勉強しておく必要があります。
Pythonではじめる数理最適化
数理最適化のケーススタディをハンズオン形式で学べる一冊。Pythonと数理最適化に興味ある方にはおすすめ。
動画
現役シリコンバレーエンジニアが教えるアルゴリズム・データ構造・コーディングテスト入門
シリコンバレーで活躍されているエンジニア、酒井さんの講座です。様々なアルゴリズムをコーディングしながら学んでいく講座です。アルゴリズムは本で勉強したことはありますが、実際コーディングするとなると、結構難しく感じました。
米国データサイエンティストがやさしく教える
データサイエンスのためのPython講座
初めてPythonを学んだのがこの講座です。Pythonの基礎構文から、データ分析に必要なライブラリであるPandas、Numpy、Matplotlib、Seabornが学べます。どれも基礎レベルで丁寧に教えてくれます。プログラミングの基礎を理解している状態で受講すればちょうどいいレベルだと思います。
現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイル
シリコンバレーで活躍されている酒井さんのPython講座です。Pythonの基礎構文から制御フロー、データ構造、モジュール、クラスとオブジェクトと一通り学べます。説明も聴きやすくわかりやすいです。
シリコンバレー一流プログラマーが教える Pythonプロフェッショナル大全
上記の書籍verがこちら。動画より、書籍で持っておきたい方にはおすすめ。
Python for Absolute Beginners
Pythonの基礎構文が学べます。
英語ですが、それほど難しい英語ではないので大体理解できました。むしろプログラム自体が英語ベースなので、個人的には英語で学んだ方が直感的にも理解できます。
Python for Data Science and Machine Learning Bootcamp
こちらも英語です。データ分析ライブラリのpandas、numpy、matplotlib、seabornに加え、線形回帰をはじめとする機械学習アルゴリズムが学べます。
データベース・SQL
書籍
達人に学ぶDB設計徹底指南書
エンジニア研修時に初めて読みましたが、最近OSS-DB技術者認定試験の勉強のために、久しぶりに読みました。データベースの基礎知識から正規化、パフォーマンスまで一通り網羅されており非常に分かりやすいです。
スッキリわかるSQL入門
現職はシステムエンジニアですがSQLを使っており、入社後の研修時に読みました。とても分かりやすいです。SQLを初めて学ぶ際には是非!
SQLではじめるデータ分析
時系列分析やテキスト分析など分析に特化したSQLが学べます。
この書籍の内容はこちらも参照。
エンジニアのための データ分析基盤入門
データ分析基盤の知識全般が一通り学べます。実践というよりもまずは基礎知識を学びたい方向けです。
動画
The Complete SQL Bootcamp 2022: Go from Zero to Hero
PostgreSQLでSQL文が学べます。こちらは英語ですが、クエリ自体もそれほど難しい内容ではないので、理解は難しくないと思います。
開発ツール
米国AI開発者がゼロから教えるDocker講座
今後はDockerを使いこなせる必要があると聞き、受講しました。非常に丁寧でわかりやすくハンズオンで学べます。
データサイエンティストを目指す人のための『ゼロからの Tableau 入門』
BIツールの勉強をしてみたいと思い、観ました。Tableu自体は結構料金が高いので、期間限定の無料版で練習した方が良さそうです。
Tableauによる最強・最速のデータ可視化テクニック
ハンズオン形式で学べる一冊。かなり丁寧に書かれているので、Tableauの基本操作はこの一冊で大丈夫そう。
米シリコンバレーDevOps監修!超AWS完全入門+本番運用向け上級編ベストプラクティスとTerraform
AWSの概念図を基に解説されています。クラウドやネットワークの基礎知識からAWSのコアサービス(アカウント、IAM、VPC、EC2、S3など)について学べます。上級編はまだやっていません。AWSについては現場で使う機会が来たら、もう一度見直そうと思います。
ビジネス(全般)
書籍
グロービス MBAクリティカルシンキング
「そもそも何が目的か」「解決すべき課題は何か」「論点は何か」を考え物事を正しく捉えようといった内容を、ケーススタディで学べます。また因果関係や仮説・検証などについても紹介されています。データサイエンスでも最初の課題設定が大事かと思いますが、自分はこの本がきっかけで物事を深く考えるようになりました。
イシューからはじめよ
著者はマッキンゼーでもご活躍された、現データサイエンティスト協会理事の安宅和人氏。ビジネスフレームワークはツールであり、その前提として、今本当に答えを出すべき問題=「イシュー」を見極める必要があります。「何が重要か見極め」、「仮説を立て」、「実際に分析し」、「伝える」ところまで解説されています。データ分析のみならずビジネス全般でも役立ちそうな内容でした。
外資系コンサルのスライド作成術 図解表現23のテクニック
視覚的にうまく伝える勉強をしたいと思い手に取りました。学生時代にパワーポイントは作りまくって、内容も評価されることが多かったですが、この本を読んで自分の作り方は甘々だったことに気づきました。目からウロコの内容で、非常に勉強になりました。
良い戦略、悪い戦略
戦略本として有名な本なので読んでみました。どのような戦略を立てるべきなのか、または避けるべきなのかケーススタディーとして学べました。
ビジネス(データサイエンス)
書籍
教養としてのデータサイエンス
そんなに難しいことは書いておらず読みやすいです。AIがどのように社会で使われているかや、統計学の基礎が紹介されています。
戦略的データサイエンス入門 ビジネスに活かすコンセプトとテクニック
データサイエンスに関して1番勉強になった本です。データサイエンスの考え方、コンセプト、基本原則が学べました。機械学習などについても書かれていますが、データサイエンスをビジネスにどう繋げるかという、「考え方」にフォーカスされています。自分も統計学や機械学習、ビジネスなど断片的に学んでいるところもありましたが、この本はそれらを網羅的に体系だってまとめられているので、相当勉強になりました。
会社を変える分析の力
「データ分析は手段であり、目的ではない」という趣旨の内容です。「分析手法にこだわりすぎたり、高度な分析手法で自己満足しても、解決すべき課題を理解せず、分析結果が本来の目的とズレていたら意味がない」と指摘がされており、データ分析する上での心構えを学びました。
最強のデータ分析組織
データ分析に関する組織の作り方、他部署との連携、マネジメントが学べます。
シン・ニホン
データ時代における日本の立ち位置や、これからどういう道を進むべきかというグランドデザインが提案され、その中で必要とされるのはどのような人材かということが書かれています。まだまだデータサイエンス人材として力がない自分にとって耳が痛い指摘も多いですが、モチベーションアップにはつながりました。個人的には3章「求められる人材とスキル」をなんども読み返しています。ここでデータサイエンスで必要となる「エンジニアリング力」、「データサイエンス力」、「ビジネス力」も紹介されています。
解像度を上げる
ふわっとした考えを、深掘りしていき、本質を見極める。データ分析プロジェクトの初期段階で、何も分析すべきか、考える一助となりそう。
AI・データ分析プロジェクトのすべて
データサイエンティストの仕事内容、プロジェクトの進め方など解説されています。実際の現場はどう動いているのか、出来るだけ理解をしておきたく読みました。
データ分析のリアル まるごとQ&A
タイトル通り、Q&Aでデータ分析プロジェクトにおけるハウツーがまとめられています。デスクに置いておきたい一冊。
プロダクトマネージャーのしごと
プロダクトマネージャーを目指していなくても、仕事の進め方を学べる一冊。
世界一流エンジニアの思考法
ポジション問わず、エンジニアと仕事をする方であればぜひ読んでいただきたい一冊。あとは組織を変えていきたいという管理職の方。ぜひ。
ビジネス(マーケティング)
書籍
グロービス MBAマーケティング
データ分析はそれ自体が目的ではなく、意思決定の支援として強力な武器になると思いますが、様々なビジネス本を読んできて、マーケティングとデータ分析が非常に親和性が高いと感じ、この本を手に取りました。マーケティングについて幅広く体系的にまとめられているので教科書的に使っています。
ジョブ理論
ジョブ理論とは、「顧客は片付けたいジョブを抱えており、それを解決する為に商品・サービスを雇用している」というものです。
「顧客は1/4インチのドリルが欲しいのではなく、1/4インチの穴が欲しい」という有名な言葉がありますが、顧客が真に解決したいものは何かを考える必要があります。(個人的には「穴」もまだ真に欲しいものではないと思いますが)。
自分はマーケターではありませんが、本の内容に非常に衝撃を受け、ビジネスや今の仕事の中でも考え方が変わりました。
データ・ドリブン・マーケティング 最低限知っておくべき15の指標
データに基づいたマーケティング戦略により他社と差別化を図った企業とそのケースが紹介されています(主に米国企業)。また、重要なマーケティング指標としてブランド認知力や、正味現在価値、内部収益率、クリック単価など15の指標が紹介されています。私自身はこの本を読んでデータ×マーケティングに興味を持ちました。
USJを劇的に変えた たった1つの考え方
著者はマーケティング界では有名な森岡毅氏。
スタビジさんの動画で紹介されていたので読んでみました。マーケティングは売れるための仕組み作りであり、マーケティングの基礎が学べました。
確率思考の戦略論
P&GやUSJで活躍されたマーケターの森岡氏、アナリストの今西氏の共著です。戦略をいかに確率・統計の力を使って組み立てていくかということにフォーカスしていますが、大局的なビジネス視点も持ち、現場を理解されていることに感銘を受けました。元々自分は局所的(数理的、技術的)な視点で集中して思考すると、大局的(ビジネスや消費者心理)な視点で同時に思考することが難しいのではないか(両立し得ない)と考えていましたが、このお二人はそうではなく、お二人の考え方やものの見方、分析力にヒントを得ました。
ワークマンは商品を変えずに売り方を変えただけでなぜ2倍売れたのか
ワークマンでは専門のデータ分析者が活躍しているというのではなく、社員一人ひとりがデータ分析リテラシーを持つような教育がなされ、日々の業務や現場作りにもそれを生かしているということで、そのような企業としての取り組みが素晴らしいなと感じました。
その他
FootyStats
教材とは違い、自分の趣味ですが、サッカーの統計データがまとまっているサイトです。世界各国のリーグのデータが集まっており、データをCSV形式でダウンロードできます。基本的なデータは無料、詳細データは有料会員になるとダウンロードできます。このサイトを眺めるだけでも楽しいですし、データをダウンロードして分析してみるのも面白いかもしれません。