はじめに
- はじめに、なぜこの記事を書こうと思ったか説明します
- 色々な人がデータ分析の職を得た経緯について解説していますが私の見聞きする範囲では主に次の二つに大別されます
- 超強い方の入社エントリ的なもの
- 未経験の方の実体験
- 超強い方の入社エントリは見てて面白いですが、私のようなヨワヨワの人間とはレベルが違いすぎてどうしよう...みたいな感覚に陥ります
- 未経験の方の実体験はとても喜ばしいものであり、どんな勉強をしたのかといったことが書かれているので参考になると思います
- 未経験の方で「やったこと」を書いているケースは結構目にするのですが、どんなカリキュラムの勉強をしてきたのか、どんなアプリを実装したのか、なぜデータ分析を志したのかといったことがメインなのかなと思います
- 一方で、オンラインコンテンツが盛んになってきた現在でもデータ分析に関する情報は書籍が中心です
- そして、どんな書籍を読んできたのかというのを述べている人は未経験寄りの人では比較的少ないのかなという印象です(超強い方の書籍一覧とかはたまに見かけます。圧倒されます)
- そこで、まだまだ駆け出しですがありがたいことにデータ分析をお仕事にさせていただいている私がやってきた勉強と、それに紐づいた形でどんな書籍を読んできたのかをお話ししようと思います
- こういう本を読むとこういうことがわかるんだなあ、といった観点で眺めて興味が出たらその書籍を手に取ってみる、といったことをしていただけると未経験の方がデータ分析をお仕事にするという目標に少し近づけるのかなと思っています
- 色々な人がデータ分析の職を得た経緯について解説していますが私の見聞きする範囲では主に次の二つに大別されます
- (追記)記事を執筆してみて、語尾が「思います」だらけになっていることに気づきました...(自信があまりないことの表れですね)。この自信のなさは私自身ではどうにもならないので何卒ご容赦を賜れれば幸甚です
書いてる人の紹介(スペック的なもの)
- まず、大事なこととしてデータ分析者の中ではまだまだ弱い方です...
- 一応データ分析を仕事にご飯を食べているので、対象読者はそのレベルを目指す方を想定しています
- 人文社会科学出身です
- 公立大(国際系)を卒業後、国立大院(政治系)にて修士を修了しました
- 学部生の頃は毎日語学と文学ばかりやっていて数学や統計などとは無縁でした
- 理系ではないものの、大学院で簡単な統計解析(Rで回帰分析をする程度)をしてそこからデータを使った業務がしたくなりました
- 新卒ではメーカーに入って社内SEになり、その後ITベンチャーにてプログラマに転職、そして現職のウェブ系企業でデータ分析の仕事をしています
- 元々の数学力について: 高校では数3Cまでやってました
- センター試験では数1Aで8割~9割、数2Bで7~8割を安定して取れる程度(文系の中ではやや数学ができるかなくらいだと思います。理系の方と比べると全然弱いと思います)
- 現在は一般的なデータ分析関連の論文を四苦八苦しながら何とか読めている感じです(レベルでいうと、Forecasting at Scaleで書かれていることのお気持ちを理解できるといった感じを想定していただけるとわかりやすいと思います)
- 学部では全く数学を勉強せず、大学院で計量政治学という分野をすることをきっかけに勉強し直しました
- 査読付き学術雑誌に統計解析を使った論文を通したことがあります
- 今回はそこから今に至るまでやった勉強について話していきます
- センター試験では数1Aで8割~9割、数2Bで7~8割を安定して取れる程度(文系の中ではやや数学ができるかなくらいだと思います。理系の方と比べると全然弱いと思います)
書いてる人の仕事
- 基本的にはデータ分析全般のお仕事をさせていただいてます
- 記述統計から推測統計までやってます
- 最近はベイズ統計をよく使います
- 状態空間モデルを使った時系列解析とかもよくします
- 効果検証や因果推論といったこともよくします
- アンケート調査などもよくしますが、基本はログデータから色々と解析するということをしています
- あとは、たまにA/Bテストやユーザーを対象とした実験もしています
- 記述統計から推測統計までやってます
- 関わるタスクの関係で機械学習とかはほとんどやりません
- ごくたまに勾配ブースティングを使う程度です
- 使う言語は以下の通りです
- R(RStan)
- 主に統計解析に使っています
- 一般的な回帰分析や時系列解析、効果検証など
- Stanを使って事後分布を求めるなどしています
- 主に統計解析に使っています
- Python
- 主に分析の自動化に使ったりDBからデータを取得するときに使っています
- DB→Pythonでデータを受け取る→PypeRで解析する→ダッシュボードに投げる、社内Wikiに書き込むなどによく使います
- ほとんどありませんが、機械学習系のタスクがある時にはPythonで実装します
- PostgreSQL
- 主にデータの加工に使っています
- R(RStan)
どんな勉強をしてきたのか
- 私の勉強は次の順序で行ってきました
- 院生時代: 統計解析に関する「手を動かす」部分を中心に勉強してきました
- その道中で必要な数学的知識を勉強してきました
- ですので、手を動かして統計解析ができるようになるを目標に、実装→理論→(部分的に数学の勉強)をやっていました
- 本当は順序が逆なのでは...?と今になって思います
- データ分析を仕事にしようと思っていた時代: この時期は社内SEとプログラマをしていました
- そのため、主にJavaとSQLを中心に、バックエンドの実装面に関しての知見を得ることができました
- これは現在業務で行なっているデータ分析の自動化やダッシュボードや社内Wikiへの分析結果の投入自動化といったタスクで役立っています
- この時期になって機械学習をちょこちょこやったり、統計(主に頻度論)の勉強を再開したりしました
- そのため、主にJavaとSQLを中心に、バックエンドの実装面に関しての知見を得ることができました
- データ分析を仕事にしてから現在にかけて: 実務で行うデータの前処理の勉強や、業務で必要な分析に関することを勉強してきました
- 主には時系列解析、効果検証・因果推論あたりを勉強してきました
- また、並行して数学の勉強を再開したりしています
- 院生時代: 統計解析に関する「手を動かす」部分を中心に勉強してきました
- 私は大体書籍でデータ分析に関することを勉強してきたので以下ではその勉強に使った書籍を紹介し、どのように使ったか、また感想や業務でどう活かされているかを述べていきます
- 紹介する書籍の選定基準は以下の通りです
- 一通り中身を読み込んだ書籍を紹介します
- そのため、パラ読み程度の書籍については基本的にはここでは言及しません
- ※一部例外的に紹介した書籍があります
- 一通り読み込んだ書籍とパラ読みの書籍の比率は大体1:2程度です
- そのため、パラ読み程度の書籍については基本的にはここでは言及しません
- 現在携わっているデータ分析の業務と関連する、ないしは役立っていると思う書籍について紹介していきます
- なので、ここで紹介している書籍で勉強するとヨワヨワですがデータ分析界隈の隅っこでお仕事をさせていただける程度のスキルは身に付くのかなと思っています
- 読んだ順(すなわち、時系列順)に紹介していますが、私自身がとっつきやすい書籍から読む癖を持っているので体感的な難易度とニアリーイコールだと思っています
- 一通り中身を読み込んだ書籍を紹介します
- なお、記憶を頼りに一気に書いているので書籍紹介で誤っている点があればご教示いただけると幸いです
数学
- 統計学にしろ機械学習にしろ数学からは逃げられないので、まずはここから勉強するか、興味のある分析手法を学ぶことと並行して数学の勉強をするといいと思います
- 基本的には線形代数、微積、確率統計の3分野を勉強しました
- 勉強に使った教科書とその感想を以下に書いていきます
- 基本的には線形代数、微積、確率統計の3分野を勉強しました
- 経済数学入門 初歩から一歩ずつ
-
[改訂版]経済学で出る数学
- 大学院生の頃に統計をやることになって一番最初に勉強した書籍です
- 何となく理系の教科書とかは近寄りがたくて、文系の私にとってとっつきやすかったので手に取りました
- 前者の教科書の方は中学数学から高校数学の復習にちょうどよかったです
- 内容もわかりやすく、比較的あっさり書いてるので学び始め初日のとっかかりにちょうどいいと思います
- 後者の教科書をやると学部レベルの経済学の教科書が読める程度の数学力がつきます
- 行列と回帰分析といった章も設けられているので統計学を勉強するのにもちょうどいいかと思います
- 【改訂版】よくわかる経済数学入門講義<上>静学分析編
-
よくわかる経済数学入門講義〈下〉動学分析編
- あまり有名ではないのですが、この二冊には本当に救われる思いでした
- というのも、行間がかなり丁寧に埋められていて、言葉を尽くして数式を理解させるという文系にとって最後の砦かと思われるくらい非常にわかりやすいです(正直これ以上行間を埋めていて、わかりやすい教科書は見たことないです)
- 上巻だけでも非常に読み応えがあり、中学数学程度の知識から始まってラグランジュ未定乗数法まで連れて行ってくれます
- 一つだけ、結構誤植があることが難点です(なんかおかしいなと思ったら誤植を疑ってもいいかもしれません)
- この難点を差し引いても文系の人はここから数学の勉強を始めるのがいいと思います
- 分野別に勉強したり、理系の方が使う教科書をやってみるのもいいと思います(そもそも上の教科書では確率統計の部分が不足するという問題もあります)
- そこで上記の教科書に加えて以下の教科書で勉強しました
-
学んで解いて身につける 大学数学 入門教室
- 大学数学の基礎的な部分を学ぶのに適しています
- 恥ずかしながらこの教科書で「写像...?全射単射...?」となりながら不足していた部分を学んでいきました
-
「手を動かしてまなぶ」シリーズ
- このシリーズの線形代数と微積を勉強しました
- 学ぶ内容は上で紹介した経済数学入門講義などと重複するところが多いのですが、経済数学だとそこまで紙幅が割かれない定義→定理→証明の順で学べたので違う角度で勉強するという意味ではとても学びになりました
-
松原望の確率過程超!入門
- 確率の勉強をするのにあたってまずこの教科書を読みました
- 中学数学から始まって代表的な確率分布や中心極限定理、大数の法則といった事柄まで勉強しました
- (本当は後半部分の待ち行列とかブラウン運動とかも読んだほうがいいと思うのですが時間の関係上優先順位を下げてまだ読んでません)
- 正直、確率に関してはまだあまり体系的に学べていません
- 応急処置的に、業務ではアヒル本の第6章をよく参考に使っています
- よく使う確率分布の簡単な説明と使用例があるのでこれを参考にモデルを組んだりしています
- 本当は確率にフォーカスした教科書を読むべきなのですがまだ手がつけられていないので今後の課題です
統計学・機械学習
- 統計学については頻度論の教科書から始まり、最近はベイズ統計の教科書を読むようになりました
-
Rによるやさしい統計学
- 最初に手をつけた教科書がこれです(余談ですが、院生だった頃指導教官から「君は統計データの扱い方が下手」と結構ボロクソに言われて、半べそかきながらジュンク堂に行ってこれを買った思い出があります)
- Rもわからないし、プログラミングのプの字もわからない独学の私でも2週間くらいで回帰分析の真似事ができるくらいには平易な説明がされていて、とっかかりとしてはありだと思います
-
Rによる統計解析
- 上の教科書を読んで色々とRを触った次に手を出したのがこの教科書です
- 内容は上の教科書と重複するところが多いのですが、多変量解析の解説が上の教科書よりも分厚い印象があります
- この教科書に関しても、プログラミングど素人の私でも色々と実装できたので使いやすい教科書だと思います
- これら二冊をやれば実装面に関しては多変量解析までできるようになると思います
-
統計学入門 (基礎統計学Ⅰ)
- 実装面についてはある程度理解して、手が動くようになったので理論をちゃんと勉強しようと思って評判の良いこの教科書を買いました
- 「本書の使い方」という項目で文系向けに読むべき章が書かれていたので院生の頃はそれらの章を読みました
- 残りの章についてはデータ分析を仕事にしようと思うようになって読みました
- 一般的なデータ分析だと確かに文系向けの章だけでも対応できるように見えますが、そこで省かれている章に確率関連のところが結構ガッツリ入ってるのでやはり通して全部読むのが良いと思います
-
RとStanではじめる ベイズ統計モデリングによるデータ分析入門
- ベイズ統計では事後分布というものを使ってリッチな分析ができると聞いてこの本を買いました
- 実装面では結構手が動くようになります
- 多変量解析と状態空間モデルによる時系列解析ができるようになります
- 他方で理論面の説明は最小限にとどめている印象なので別途自分で補う必要があると思います
-
StanとRでベイズ統計モデリング
- 前掲のアヒル本です
- これも上の教科書と内容が重複するところが多く、どちらかというと実装面を重視している印象です
- ただ、回帰分析を中心として様々なモデルや、それに必要な確率分布を紹介していたり、外れ値にはどう対処するのか、といった細かいことが色々と書かれているので上の教科書で基礎を押さえた上で応用的な実装の勉強でかなり役立ちました
-
社会科学のための ベイズ統計モデリング
- ベイズ統計で使うモデル評価の指標を勉強するために買いました
- 一方で確率分布についてもかなり丁寧に解説されていました
- また、ありそうな事例を使ってどのように統計モデリングをするのか、といった部分について理論面と実装面でバランスよく書かれていたのが印象的でした
- 従属変数に0が多く含まれた場合に、GLMを使うのかハードルモデルを使うのか、といった議論がとても印象深く、実務でもハードルモデルはよく使うので上で述べたモデル評価や確率分布の他にも統計モデリングといった観点でこの教科書を使って勉強するとためになると思います
-
ベイズ統計モデリング 原著第2版
- 犬四匹本やDBDAとも呼ばれています
- 事前分布から事後分布の生成やHDI+ROPEの枠組みといったベイズ統計の理論や考え方を学ぶのに重宝しました
- Rを中心として実装面のサポートも手厚いので、手を動かしつつ数式や解説を追っていくと頭の中にベイズ統計の考え方が浸透していく感覚を覚えます
- 難点はJAGSでの実装で書かれているところが多い一方で最近はStanでの実装がよく使われているので少し古いかなという印象を抱きます
- DBDAのJAGSコードをStanに置き換えてくれている方がいるので、当該GitHubを参照すると良いと思います
- 著者のKruschke氏は非常にわかりやすいベイズ統計の解説をしている人でこの方の論文も並行して読むと考え方が体系的に学べて良いと思います
- The Time Has Come: Bayesian Methods for Data Analysis in the Organizational Sciences: ベイズ統計の入門的な論文です。概要を知るにはちょうど良いボリュームです
- Rejecting or Accepting Parameter Values in Bayesian Estimation: HDI+ROPEという「実践的に意味のある影響度合いなのかどうか」をベイズ統計的に測定する枠組みの解説をしています。実質的に影響力があるとみなせる範囲を設定し、その範囲にHDIが入るかどうかといった観点で影響度合いを議論しています
- Bayesian Analysis Reporting Guidelines: ベイズ統計で行った分析の結果を報告するためのガイドラインです。私はこのガイドラインに沿って分析結果を報告しています
-
[第2版]Python機械学習プログラミング 達人データサイエンティストによる理論と実践
- ※今は第3版が出ているのでそちらを買ってください
- ここではあくまで私が勉強した教科書のリンクを貼っています
- 機械学習についてはこれしかしていません
- 機械学習の考え方からSVMなどの基本的なアルゴリズム、特徴量の処理や精度評価といったことを一気に勉強できます
- 理論と実装のバランスがよく、上で述べた数学の教科書をやった後にこの教科書で勉強すると理解が速くなると思います
- ※今は第3版が出ているのでそちらを買ってください
- (追記)最近、 標準 ベイズ統計学という教科書が日本語で翻訳されて出版されました
- 前評判も良く、色々な人が議論をしているのでどこかで時間を見つけて勉強したいなと思っています
時系列解析、因果推論などその他分析について
-
時系列分析と状態空間モデルの基礎:RとStanで学ぶ理論と実装
- 時系列解析を勉強するにあたって最初に手にした本です
- 時系列解析の考え方から始まり、古典的なARIMAモデルやVARモデル、Granger因果性といったことが学べる上に状態空間モデルの基礎が学べます
- 理論面の説明と実装のバランスがよく、手を動かす感覚を学びながら理論を理解するということができます
- 難点は、状態空間モデルの少し薄い気がします
- 時系列解析の概要から初めてBox-Jenkins法、Granger因果性などの各種概要、および状態空間モデルまでを一冊で説明するというかなり野心的な教科書なので少し薄くなるのは仕方ないとは思います
- 使い方としてはこの教科書で状態空間モデルの概要を掴む→下で紹介する教科書で詳しく勉強する(DLMで実装したい場合は下の教科書だけで良いと思います)→(もしベイズ的に状態空間モデルをやりたいなら)「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」で実装面を勉強すると良いと思います
-
基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルタ―
- こちらも時系列解析の概要から始まりますがBox-Jenkins法の説明はなく、いきなり状態空間モデルの話をしていたと記憶しています
- この教科書も理論面と実装面のバランスがよく上の教科書を読んだ後に状態空間モデルについて詳しく理解する、という使い方をすれば一般的な業務では差し支えない程度にモデルの背景知識を獲得し、その上で手が動くようになります
- ただし、Stanによる実装については一章だけ言及されているのにとどまっているので、ベイズ的にやりたいという場合は前掲の「RとStanではじめる ベイズ統計モデリングによるデータ分析入門」を参照すると良いと思います
- これら三つの教科書を読むことで業務で使う一般的な状態空間モデルの実装ができるようになると思います
-
効果検証入門 ~正しい比較のための因果推論/計量経済学の基礎
- 業務で効果検証をやることになった時に最初に手にした教科書です
- 色々なところで紹介されていてデータ分析界隈では定評のある教科書です
- RCTの考え方とその限界、そして観察データに対する効果検証手法として回帰分析、傾向スコアマッチング、RDD、CausalImpactといった代表的なものをアラカルト方式で紹介しています
- そのモデルの背景についても紙幅が割かれているので手を動かしつつ、背景知識を得ていくことができます
- ただし、実務で使う場合にはもう少し背景知識を勉強する必要を感じました
- 例えばDAGと傾向スコアマッチングの関係について知るために「Using Propensity Scores for Causal Inference: Pitfalls and Tips」を読みました
- 他には実務では時系列データに対する効果検証をすることもあるので、「Interrupted time series regression for the evaluation of public health interventions: a tutorial」でRDDの考え方を時系列データに適用したモデルについて勉強するなどしました
-
統計的因果推論の理論と実装
- こちらの教科書の内容も上の教科書と重複することが多いですが、理論面の説明はこちらの方が丁寧な印象を抱きました
- 特にDAGを使った説明やチョコレートとノーベル賞の関係から見る交絡といった議論は興味深かったです
- 例に漏れず、理論と実装のバランスがよく、こちらの教科書と上の教科書を見比べながら勉強すると実務で使うモデルを一通り学べると思います
-
因果推論の科学 「なぜ?」の問いにどう答えるか
- DAGに興味があったので買いました
- 数式はほとんど出てこないので読み物感覚で勉強しました
- DAGに至るまでの因果推論に関する歴史やなぜこのような分析をするのか、因果推論とは何か、DAGをどうやって調整するのかといったことが学べます
- DAGに興味があったので買いました
-
入門 統計的因果推論
- 先ほどお伝えした通り、DAGについて興味があったのでこの本で勉強しました
- 統計モデルと因果モデルの違いから始まり、グラフィカルモデルの概要や介入効果、反実仮想といった事項が学べます
- これらの議論の中でDAGをどのように調整すべきか(バックドア基準など)といったことが学べます
- この教科書を片手に「DAGitty」で色々とDAGを作って調整するなどするとこの教科書でやってることが具体的に可視化されて理解できるのでおすすめです
- DAGを使って因果関係を可視化した上で、何を調整すべきかを考え、その上でそれを実際のモデルにする手順についてはOn causal interpretation of race in regressions adjusting for confounding and mediating variablesを参考にしました
- 社会科学系出身なので人種といったテーマでDAGについて議論している論文はとっつきやすかったのでこれで勉強しました
- DAGは現在色々なところで使われているのでご自身の興味関心の赴くキーワードとDAGで検索すれば類似した論文が出てくるかなと思います
-
A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは
- 業務でA/Bテストをすることになった時に読みました
- 実験デザインなどの話もされていますが、単純なHow To本ではなく、明確なゴールを設定する必要性や異様な結果が出たときに一喜一憂しないで結果を解釈し、ビジネスにどう活かすかといったことも書かれていたり、コントロール実験ができない場合の対応策として観察データをどう分析するかといった観点で色々な手法が紹介されています(ただし、紹介程度なので詳しい内容は前掲した因果推論の教科書を見た方がいいと思います)
- この本を参考に、A/Bテストの設計を行なっています
-
ウェブ最適化ではじめる機械学習
- これは前半しか読んでいないので本来は紹介すべきでないかもしれないのですが、A/Bテストをするときに役立ったので紹介します
- 主にベイズ統計の枠組みでA/Bテスト結果の解釈の仕方とPythonでの実装の参考にするために勉強しました
- この本の著者もKruschke氏の教科書で勉強したらしく、前掲書でベイズ統計を勉強するとこの本の内容(の前半部分)がスムーズに理解できると思います
- 上の本とこの本でA/Bテストの概要と簡単な分析の実装を知れると思います
- 正直、深いレベルのタスクはやったことがない(A/Bテストができるシーンはかなり限られるのかなという印象を抱いています)ので実験の自動化などには興味を持っていますが私自身の中での勉強の優先順位はそれほど高くないです
プログラミングなど
-
Spring徹底入門 Spring FrameworkによるJavaアプリケーション開発
- データ分析と全然関係ないでしょ...と突っ込まれそうですが、私が最初にプログラミングを勉強したときに読んだ本です
- Springというフレームワークで割と大きめのアプリケーションの実装を行ってきました
- 一つのフレームワークでアプリケーションを作るという経験は、分析の自動化や分析結果とダッシュボードとの連携といったところでシステム開発チックなことも出てくる点で非常に役に立ったなと思っています
- そのため、ここではSpringが良いということではなく、何かしらのフレームワークに則って何かしらのシステムを開発する経験がデータ分析にも役立つということをお伝えしたかったです(PythonのFlaskとかとっつきやすいですしこの辺から勉強するのもありかなと思います)
-
パーフェクトPython [改訂2版]
- データ分析を仕事にしたいと思っていたときはJavaのプログラマをしていました
- その時に、データ分析といえばPythonと思い、この本を片手に色々と実装していました
- それで例えばPythonにおける型の概念であったり、外部ライブラリを使ってPythonとデータベースを連携するといったことまでこの本で幅広く知ることができました
- プログラマとしてもヨワヨワだったのですが、それでもこの本である程度アプリケーションの実装ができるようになったのでおすすめの書籍に挙げました
- 辞書としてもおすすめです
- プログラマとしてもヨワヨワだったのですが、それでもこの本である程度アプリケーションの実装ができるようになったのでおすすめの書籍に挙げました
-
ビッグデータ分析・活用のためのSQLレシピ
- この本も通読はしていないのですが、膨大なログの加工をする際に辞書・参考書的に活用しています
- もともとプログラマをしていたときにSQLは毎日のように書いていたのである程度分析にも使えるだろうと思っていたのですが、システム開発とデータ分析向けのデータ加工では目的が全然違うので、最初結構苦労をします
- 特に集計関連のSelect文を書くことはほとんどなかったのでこの本を使ってその辺りの詰まりを解消しています
社会科学など
- 社会科学出身、いわゆる文系ですと理系に比べて数式に不慣れであったりプログラムの実装力が弱かったりすることが結構あるのかなと思います
- 私自身ヨワヨワなのでこの辺りを日々痛感しています
- こうしたところから、例えばビジネス力といったところに軸足を置いてデータ分析もやるという戦い方もあるのかなと思います
- こうした話は実際結構見聞きします
- (上記の弱さを埋めることは当然として)他の戦い方として社会科学の知見を活かすというのもアリなのかなと思います
- 私は経済系ではないのでなんとも言いようがないのですが、データ分析界隈では最近経済学の存在感が増している気がするので、経済学は一つの好例かなと思います
- 他には、例えば社会科学では調査票を用いた調査・分析が結構行われているのでそうした知見を活かしてアンケート設計から貢献してみる...みたいなことも一つの手なのかなと思います
- また、長年定性的データを客観的に分析するということが議論されてきたことも社会科学の強みとして挙げられる気がします
- 加えて、実務ではなかなかうまく定量的なデータが取れないであったり、実験ができないといったことも往々にして見られると思います
- 一方でビジネスの世界はスピード命の部分もあり、私たちは日々意思決定と向き合わなければなりません
- こうした経緯から、定量的なデータ分析を主軸にしながらも、例えば意思決定に使える判断材料として定性的なデータしかない場合にそれらを客観的に分析して、暫定的な答えを出し、その意思決定を以て実験や新たなデータ取得を行い、そのデータを分析するというループを作ることができると思っています
- ここでは、こうしたビジネス的な要請にも応えられるということがいわゆる社会科学出身者の戦い方の一つかなと思って最後に幾つかの書籍を紹介します
-
原因を推論する -- 政治分析方法論のすゝめ: 主には定量的な分析をテーマとしながらも科学とは何か、客観性とは何か、といったことも議論しています
- 特に原因と思われる要因を分析するにあたって相関関係の有無(因果≠相関ではありますが...)、変数統制、時間的な前後関係といった事柄を議論しています
- もちろんこれらがあれば因果関係であると断定することは難しいですが、ビジネス的な確度は上がるかなと思います
- これらの分析結果を意思決定に用いるかどうかは個々の現場次第ではありますが一考の余地はあると思います
- もちろんこれらがあれば因果関係であると断定することは難しいですが、ビジネス的な確度は上がるかなと思います
- あとは散々議論し尽くされていますが科学を科学たり得るものとする概念として反証可能性といったことが議論されています(反証可能性が科学を科学たらしめているか、というのも一つの大きなテーマではありますが)
- 要は、如何にして目の前のデータを客観的に分析し、因果関係に近づけるかということを社会科学の文脈で議論しており、政治という実世界に根ざした事例で解説しているのでとっつきやすく勉強になることも多々あります
- 特に原因と思われる要因を分析するにあたって相関関係の有無(因果≠相関ではありますが...)、変数統制、時間的な前後関係といった事柄を議論しています
-
社会科学のリサーチ・デザイン 定性的研究における科学的推論
- 上述したように社会科学では定性的なデータを用います
- 例えば調査票の自由回答や聞き取り調査の結果など
- これらを客観的に分析するための方法論を体系的に論じています
- 面白いのが、その方法論を統計学の枠組みを援用しながら提示していることです
- また、1990年代に出版された社会科学の書籍にもかかわらず参考文献としてRubinが挙げられていることからも、非常に先駆的な学術書であることがわかります
- 私にとって一番の学びになったのは「観察可能な含意」(もし仮にその仮説があっていたら当然に見られる現象)です
- 例えば、恐竜が絶滅したのが隕石によるものであれば、恐竜が絶滅した時代の地層から、本来地球では希少な成分(隕石には多量に含まれる)が見つかるであろうといった含意のこと
- この概念は定性的な分析だけでなく、データ分析にも活かせるものと思っています
- 何かしらの仮説が合っていれば、その帰結として当然に生じるであろう現象を何個も予想しておき、実際に分析でそれを実証し、仮説検証の結果の確度を高めていくことは実験室的な環境が作れないビジネスの現場において有用な考え方であると思います
- 上述したように社会科学では定性的なデータを用います