LoginSignup
33
44

More than 1 year has passed since last update.

データ分析プロジェクトのフェーズ毎の参考書籍紹介

Posted at

データ分析関連の本の紹介はたくさんありますが、分析の流れに沿って紹介しているものをあまり見かけないので作成してみました。データ分析プロジェクトだとモデル作成は本の一部ですが、本の紹介はかなりモデル作成に偏っています。ビジネスの理解からビジネスへの展開まで多岐にわたります。
データ分析や機械学習に近い概念のデータマイニングにおいて、CRISP-DMという方法論があります。データ分析プロジェクトにもそのまま使えるので良く引用されています。

代替テキスト
出所:IBMi総合情報サイト. 「ここにデータがあるから、ここから何かわかるよね?」~心地よいデータマイニング3つの掟~ 【第3回 データマイニング手法の実際】. https://www.i-cafe.info/column/serials/comfortable-data-mining-3points-03 (参照 2023-02-25)

CRISP-DMのフェーズ毎に参考となる書籍を紹介したいと思います。

データ分析プロジェクト全体

  • 大城信晃他. 『AI・データ分析プロジェクトのすべて[ビジネス力×技術力=価値創出] 』. 技術評論社. 2020.
    • AI=ディープラーニングで数学が必要!と思っている方、そう思っている人に囲まれ苦労してる方に是非勧めたいです。
    • Amazon紹介ページにあるように、組織、PJ推進、ビジネスとしての収益化までを解説するという稀有な本です。なんとデータ分析を外注した場合の見積もりの目安まで掲載!
      • 本書はこれまでメインテーマとして語られることのなかった「ビジネス力」に焦点をあてて、データ分析プロジェクトを一通り解説していきます。プロジェクトの入口として「組織の立ち上げ方」から「案件獲得」にふれ、続く実際のデータ分析プロセスにおいては、課題とゴールを明確にして、分析結果は出して終わりではなく共有、評価のサイクルが必要であることを解説します。最後に出口となる「収益化」に関する情報をまとめます。
    • 目次

      第1部 プロジェクトの準備
      第1章 AI・データ分析業界の概要
      第2章 データサイエンティストのキャリアと雇用
      第3章 AI・データサイエンティストの実務と情報収集

      第2部 プロジェクトの入口
      第4章 社内案件の獲得と外部リソースの検討
      第5章 データのリスクマネジメントと契約

      第3部 プロジェクトの実行
      第6章 AI・データ分析プロジェクトの起ち上げと管理
      第7章 データの種類と分析手法の検討
      第8章 分析結果の評価と改善
      第9章 レポーティングとBI
      第10章 データ分析基盤の構築と運用

      第4部 プロジェクトの出口
      第11章 プロジェクトのバリューと継続性
      第12章 業界事例

ビジネス状況の理解

  • 音部大輔. 『なぜ「戦略」で差がつくのか。』. 宣伝会議. 2017.
    • マーケター向けの本であり、本ブログ著作青木もマーケティング関連の勉強として読みましたがかなりの衝撃を受けました。マーケティングのみでなくおよそビジネスで「戦略」という言葉が出てくる分野には全て通用する話です。
    • 皆簡単に「戦略」という言葉を使い共通理解がないまま破綻していませんか。
    • Amazon紹介ページにある通り、ほとんどの会社が無自覚に「戦略」という言葉を使っていると思います。

      しかし、経営戦略、マーケティング戦略、広告戦略、営業戦略…
      と企業の中では「戦略」という言葉が必要以上に多用されています。定義や意味が曖昧なため、ビジネスの現場で混乱や誤解を招く原因にもなり、実際的に戦略を運用する上では、ほとんど役に立ちません。
      つまり「戦略」は、いまだにかなり曖昧な単語だということです。
      戦略の考え方のひとつを理解することは、今後の選択や意思決定に対して有効な指針となります。本書は、それぞれの読者が戦略を実践的な思考の道具として体得されることを目指すものです。

    • 「AIでなんかしたい」というような場面もまだ見受けられます。そのデータ分析プロジェクトで何をしたいのか、リソース制約は何か、整理することが求められます。本書は関係者の共通理解を得るための第一歩になると思います。
      • 本ブログ著者の青木は「戦略においては、限られたリソースのもと目的達成のために何を実施し、何を捨てるか、の『何を捨てる』の共通理解を得ることが一番大事」と本書を理解しています。
    • 目次

      第1章 戦略を定義付ける
      01 戦略を定義するための出発点
      02 戦略があるとなにがいいのか

      第2章 戦略の構成要素1「目的」を解釈する
      01 目的にはいいものとそうでないものがある
      02 いい目的を設定する強い味方――SMACとSMART
      03 「目的」を別の角度から眺めて、再解釈する
      04 「目的」を再解釈する具体的な手法

      第3章 戦略の構成要素2「資源」を解釈する
      01 「資源」を解釈し直す
      02 資源を考える 1内部資源
      03 資源を考える 2外部資源
      04 資源を考える 3認識しにくい内部資源――内部資源になりそうなもの
      05 資源を考える 4認識しにくい外部資源――外部資源になりそうなもの
      06 複数の資源を効率的に運用する

      第4章 戦略の効用
      01 戦略を持つことでなにが変わるのか
      02 戦略があれば不測の事態に対処できる
      03 戦略と再現性に固執する

      第5章 戦略を組み立てる
      01 戦略を組み立てるための思考法
      02 戦略の階層――上位の手段が下位の目的になる
      03 「選択と集中」がなぜ必要になるのか
      04 「選択と集中」を説明する概念
      05 「選択と集中」を妨げる概念
      06 複数の視点を獲得する
      07 戦略を文章化する

      第6章 戦略を管理する
      01 戦略をいかに実行に移すか
      02 戦略を変更すべきとき

      第7章 戦略的に考える
      01 最悪の事態を回避するための思考トレーニング
      02 不確実性を読む

      第8章 「戦略」をより深く理解する
      01 実践的な思考の道具としての戦略
      02 従来の戦略論とどう関連するか

  • バーナード・マー著, 山本真麻訳. 『世界標準のデータ戦略完全ガイド データセンスを磨く事例から、データの種類と仕組み、戦略策定のステップまで』. 翔泳社. 2022.
    • 本項はもう1冊。
    • データ分析を含んでデータ活用についての戦略をどう立てどう実行するかのノウハウの本です。
    • Amazon紹介ページにはこう紹介されています。

      データ戦略の目的は主に6つあります。

      1)意思決定プロセスを改善する
      2)顧客(市場)を理解する
      3)より優れたサービスを生み出す
      4)より優れた製品を生み出す
      5)業務プロセスを改善する
      6)データを収益化する
      (中略)

      AI(機械学習など)の仕組みや、インサイトの見いだし方、
      データインフラの整備、データ能力の高い組織のつくり方までしっかりフォロー。

    • 目次

      第1章 はじめに:あらゆる企業をデータ企業と呼べるわけ
      第2章 データの活用目的
      第3章 意思決定プロセスを改善する
      第4章 顧客を理解する
      第5章 より優れたサービスを生み出す
      第6章 より優れた製品を生み出す
      第7章 業務プロセスを改善する
      第8章 データを収益化する
      第9章 データの活用計画をつくる
      第10章 データのソース選びと収集
      第11章 データガバナンスと倫理問題および信頼問題
      第12章 データをインサイトに換える
      第13章 ITインフラとデータインフラを構築する
      第14章 データ能力の高い組織をつくる
      第15章 データ戦略の実行と改善
      第16章 未来を見据えて
      巻末付録 データ活用・データ戦略テンプレート

    • 巻末付録のテンプレートをもとに自社の状況を書き下してみると良いと思います。青木の会社では別のテンプレートで実施していますが、「あ、ここの共通理解が得られてないな」と早めに気づいて対処することが肝心です。

データの理解

  • 江崎貴裕. 『分析者のためのデータ解釈学入門 データの本質をとらえる技術』. ソシム. 2020.
    • Amazon紹介ページにある通り、手法の解説を羅列している本はたくさんありますが、データを見る「かんどころ」を解説してくれている本はほとんどないと思います。

       本書では,各種分析手法をただ網羅するだけでなく,データのばらつきやバイアスに関する基礎知識,データにさまざまな偏りを生じさせる行動心理学,サンプリングの方法と理論,データハンドリングのノウハウ,各種分析の考え方,データの解釈における認知バイアスや数理モデリングのポイント,システム運用時に発生する問題など,非常に幅広い視点でデータ分析者が知っておかなければならない知識を整理し,平易に解説することを目指しました。

    • 経験がものをいうところではありますが、青木が苦労して身につけたことや間違って痛い目に遭ったところなどが丁寧に解説されていて、これで学べる人ずるいよ、って感じですがずるくないです読んで学んでUpdateしていきましょう。
    • 目次

      第一部 データの性質に関する基礎知識
      第1章 観測は簡単ではない
      第2章 誤差とばらつき
      第3章 データに含まれるバイアス
      第4章 交絡因子と因果関係
      第5章 データサンプリングの方法論

      第二部 データの分析に関する基礎教養
      第6章 データの扱い
      第7章 一変数データの振る舞い
      第8章 変数の間の関係を調べる
      第9章 多変量データを解釈する
      第10章 数理モデリングの要点

      第三部 データの解釈・活用に関する基礎知識
      第11章 データ分析の罠
      第12章 データ解釈の罠
      第13章 データ活用の罠

データの準備

  • ゆずたそ他. 『実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ』. 技術評論社. 2021.
    • いざデータ分析をしようとすると、「あると思っていたデータがない」、「精度を上げるためには〇〇のデータが必要だが他部署に依頼する必要・渋られる」、「ID連携が部署館でなされていない」等々社内データが「使える」状態になっていないことが噴出します。
    • Amazon紹介ページにあるように、社内データを社内で「使える」状態にするためのノウハウを解説した本です。

      「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」
      「最新技術を利用してデータ基盤をつくったがニーズがなかった」
      「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」
      「データの意味が分からず、データの意味の聞き込み調査で1日が終わった」
      (中略)
      そこで本書では、データ基盤の本来の機能を甦らせるため、またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備、システムの知識、組織のあり方、データの取り扱いといった"データ基盤を機能させるためのノウハウ"を、この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない、これからデータ基盤を構築したいが何からはじめればよいか分からない、といったことで悩まれている方には一読の価値があるはずです。

    • 目次

      第1章 データ活用のためのデータ整備
      1-1 データの一連の流れを把握し、入口から出口までを書き出す
      1-2 データの品質は生成元のデータソースで担保する
      1-3 データが生じる現場を把握して業務改善につなげる
      1-4 データソースの整備ではマスタ・共通ID・履歴の3つを担保する
      1-5 データレイク層の一箇所にデータのソースのコピーを集約する
      1-6 データウェアハウス層では分析用DBを使って共通指標を管理する
      1-7 共通指標は本当に必要とされるものを用意する
      1-8 特定用途に利用するデータマートはユースケースを想定してつくる
      1-9 ユースケースを優先的に検討しツールの整備を逆算する
      1-10 データの調査コストを減らすためにメタデータを活用する
      1-11 サービスレベルを設定・計測して改善サイクルにつなげる
      1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける

      第2章 データ基盤システムのつくり方
      2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する
      2-2 データソースごとに収集方法が違うこと、その難しさを理解する
      2-3 ファイルを収集する場合は最適なデータフォーマットを選択する
      2-4 APIのデータ収集では有効期限や回数制限に気をつける
      2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する
      2-6 データベースの負荷を考慮したデータ収集ではエクスポートやダンプファイル活用を視野に入れる
      2-7 更新ログ経由のデータベース収集はデータベースの負荷を最小限にしてリアルタイムに収集できる
      2-8 各データベース収集の特徴と置かれた状況を理解して使い分ける
      2-9 ログ収集はエージェントのキャパシティに注意
      2-10 端末データの収集は難易度が高いためできるだけ製品を利用し無理なら自作する
      2-11 ETL製品を選ぶポイントは利用するコネクタの機能性とデバッグのしやすさ
      2-12 データレイクでは収集したデータをなくさないようにする
      2-13 データウェアハウスには抽出や集計に特化した分析用DBを採用する
      2-14 分析用DBはクラウド上で使い勝手が良い製品を選ぶ
      2-15 列指向圧縮を理解して分析用DBが苦手な処理をさせないように気をつける
      2-16 処理の量や開発人数が増えてきたらワークフローエンジンの導入を検討する
      2-17 ワークフローエンジンは「専用」か「相乗り」かをまず考える

      第3章 データ分析の組織
      3-1 アセスメントによって組織の現状を客観的に把握する
      3-2 組織の状況に合わせて組織構造を採用する
      3-3 データ組織の成功に必要な要因を理解する
      3-4 データ組織を構成する職種と採用戦略の基本を押さえる
      3-5 データ活用とセキュリティはトレードオフの関係にあることを理解する
      3-6 組織の利益となるデータのセキュリティポリシーとそのセキュリティ基準を決める
      3-7 適切な権限設定とリスク管理方法を定める
      3-8 データ利用や権限管理などの運用ルールをドキュメント化する
      3-9 担当、見直しサイクル、判断基準を決めてデータやツールの棚卸を定期的に行う
      3-10 不正アクセスに備えてデータ保護や匿名加工技術を適用する
      3-11 監査では評価方法を理解して客観性を担保する

モデルの作成

  • 門脇大輔他. 『Kaggleで勝つデータ分析の技術』. 技術評論社. 2019.
    • 少し古くはなり、類書も多数出るようにはなりました。Kaggleで勝ちたいならば新しい技術を追う必要がありますが、実務の参考としては本書で十分(逆に本書をマスターするだけでも大変)と思います。
    • Amazon紹介ページにある通り、Kaggle向けのテクニックというよりもデータ分析で精度向上等のノウハウが詰まっています。

      特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。

    • モデルの作成において本書だけでは足りないですが、逆に本書のレベルは繰り返し身につけないといけないという必須な技術ばかりだと思います。なので、1冊だけ選ぶなら本書を推奨。
      • 「3.2.3 決定木の気持ちになって考える」の節が感慨深いです。Kagglerはそこまで感情移入するんだなって。
    • 目次

      第1章 分析コンペとは?
      1.2 分析コンペのプラットフォーム
      1.3 分析コンペに参加してから終わるまで
      1.4 分析コンペに参加する意義
      1.5 上位を目指すためのポイント
      Column  計算リソース

      第2章 タスクと評価指標
      2.1 分析コンペにおけるタスクの種類
      2.2 分析コンペのデータセット
      2.3 評価指標
      2.4 評価指標と目的関数
      2.5 評価指標の最適化
      Column out-of-foldとは?
      2.6 評価指標の最適化の例
      2.7 リーク(data leakage)

      第3章 特徴量の作成
      3.1 本章の構成
      3.2 モデルと特徴量
      3.3 欠損値の扱い
      3.4 数値変数の変換
      Column データ全体の数値を利用して変換を行うときに,学習データのみを使うか,テストデータも使うか
      3.5 カテゴリ変数の変換
      3.6 日付・時刻を表す変数の変換
      3.7 変数の組み合わせ
      3.8 他のテーブルの結合
      3.9 集約して統計量をとる
      3.10 時系列データの扱い
      3.11 次元削減・教師なし学習による特徴量
      3.12 その他のテクニック
      3.13 分析コンペにおける特徴量の作成の例

      第4章 モデルの作成
      4.1 モデルとは何か?
      4.2 分析コンペで使われるモデル
      4.3 GBDT(勾配ブースティング木)
      Column xgboostのアルゴリズムの解説
      4.4 ニューラルネット
      4.5 線形モデル
      4.6 その他のモデル
      4.7 モデルのその他のポイントとテクニック
      Column 分析コンペ用のクラスやフォルダの構成

      第5章 モデルの評価
      5.1 モデルの評価とは?
      5.2 バリデーションの手法
      5.3 時系列データのバリデーション手法
      5.4 バリデーションのポイントとテクニック

      第6章 モデルのチューニング
      6.1 パラメータチューニング
      Column xgboostの具体的なパラメータチューニングの方法
      Column 多層パーセプトロンの具体的なパラメータチューニングの方法
      6.2 特徴選択および特徴量の重要度
      6.3 クラスの分布が偏っている場合
      Column ベイズ最適化およびTPEのアルゴリズム

      第7章 アンサンブル
      7.1 アンサンブルとは?
      7.2 シンプルなアンサンブル手法
      7.3 スタッキング
      7.4 どんなモデルをアンサンブルすると良いか?
      7.5 分析コンペにおけるアンサンブルの例

評価

  • 高柳慎一, 長田怜士. 『評価指標入門』. 技術評論社. 2023.
    • 評価指標については機械学習解説本の中で触れられてはいましたが、その理論の解説がメインであり、どうビジネスのKPIとつなげるか等の解説は手薄だったと思います。
    • Amazon紹介ページにあるように、本書ではデータサイエンスの空間とビジネスの空間での「指標」が異なることを意識し、それらの「指標」の特徴をしっかり把握した上で、どうつないでいくか、を解説してくれています。

      「評価指標でXXXという最高のスコアが出た!」と喜び勇んで、機械学習モデルが出力してくる予測結果をもとにビジネスを運用したとします。 ところが、ビジネス上のKPIと相関が高い評価指標を選んでいなかったために、KPIの推移を見てみると大した変化がありませんでした。
      (中略)
      このような状況が起きてしまう背景にはさまざまな原因が考えられますが、あえて一言で言うと「データサイエンスの問題が解くべきビジネスの問題と乖離していた」ためです。
      (中略)
      本書はこれらの疑問に答えるため、機械学習の良し悪しを決める評価指標を軸に、解くべきビジネスの問題をどうやってデータサイエンスの問題に落とし込むのか、その原理を解説していきます。この原理が普遍的なものであれば、ビジネスがどんなものであっても応用できると考えることができます。

    • 目次

      1章 評価指標とKPI
      1.1 機械学習と評価指標
      1.2 機械学習と最適化計算
      1.3 機械学習プロジェクトの流れ
      1.4 評価指標とは
      1.5 評価指標とKPIと目的関数の関係
      1.6 評価指標の決め方を間違えないために
      1.7 KPIの特質を損失関数と評価指標に反映する
      1.8 まとめ

      2章 回帰の評価指標
      2.1 回帰とは
      2.2 データセットと回帰モデルの準備
      2.3 平均絶対誤差
      2.4 平均絶対パーセント誤差
      2.5 二乗平均平方誤差
      2.6 対数平均二乗誤差
      2.7 モデルの評価
      2.8 真に使うべき評価指標
      2.9 その他の評価指標
      2.10 まとめ

      3章 二値分類における評価指標
      3.1 二値分類と評価指標
      3.2 データセット
      3.3 混同行列
      3.4 正解率
      3.5 マシューズ相関係数
      3.6 適合率
      3.7 再現率
      3.8 F1-score
      3.9 G-Mean
      3.10 ROC-AUC
      3.11 PR-AUC
      3.12 pAUC
      3.13 Employee Promotion Dataデータセットの評価
      3.14 ビジネスインパクトの期待値計算
      3.15 コスト考慮型学習
      3.16 まとめ

      4章 多クラス分類の評価指標
      4.1 多クラス分類とは
      4.2 データセット
      4.3 混同行列
      4.4 正解率
      4.5 適合率
      4.6 再現率
      4.7 F1-score
      4.8 ROC-AUC
      4.9 最適な評価指標の考察
      4.10 まとめ
      付録 ビジネス構造の数理モデリング

展開

  • Nancy Duarte著, 渡辺翔大他訳. 『DataStory: 人を動かすストーリーテリング』. 共立出版. 2022.

    • 精度が良いモデルができてもビジネス展開できなければ意味がない。
    • 上司や現場の担当に「RMSEが○○で……」では伝わらず分かりやすくストーリー立てた可視化による説明が必要となる。
    • 可視化のライブラリ解説や、スライド作成等の本はありますがAmazon紹介文にあるように、下記のような内容の本は今までほとんどなかったと思います。
      • 「共感」というレンズを通してデータを説明すること
      • データをストーリーにして相手の行動を促す方法
      • 上司や不特定多数の人に承認される提案書のつくりかた
      • グラフの所見をわかりやすく書き、注釈を付ける方法
      • スライドの構成とレイアウトについてのコツ
      • データに命を吹き込み、記憶に残るものにして相手の行動を促す方法
    • 目次

      PART 1 データを用いて相手にメッセージを伝える
      Chapter 1 データのコミュニケーターになる
      Chapter 2 意思決定者とのコミュニケーション

      PART 2 ストーリーの構成を明確にする
      Chapter 3 データ視点を作る
      Chapter 4 データストーリーとしてのエグゼクティブサマリーの構成
      Chapter 5 分析から行動を生み出す

      PART 3 わかりやすいグラフやスライドを作成する
      Chapter 6 適切なグラフを選択し所見を記述する
      Chapter 7 グラフに洞察を追加する
      Chapter 8 読みやすいSlidedocを作成する

      PART 4 データを記憶に焼き付ける
      Chapter 9 規模感の表現方法を知る
      Chapter 10 データを人情味あるものにする
      Chapter 11 データを使ったストーリーテリング

  • 澁井雄介. 『AIエンジニアのための機械学習システムデザインパターン』. 翔泳社. 2021.

    • 本項ももう1冊。では実装となった時にどういうノウハウが必要か。構築・運用について。
      • 本ブログ著者の青木はこの項あまり実績がありません。最低限のところは知っておこうと学んだ程度です。
    • Amazon紹介ページにある通り、機械学習の実装のためのデザインパターンを解説したものです。

      本書は機械学習を有効活用するためにはシステムに組み込むための設計や
      実装が必要と考え、機械学習システムのデザインパターンを集めて解説した書籍です。
      機械学習システムのグランドデザインおよびPythonによる機械学習システムの実装例を説明しつつ、
      機械学習を本番活用するための方法論や、運用、改善ノウハウについて解説します。
      本書で扱うプラットフォームには、コードの再現実行を担保するため、
      DockerとKubernetesを活用します。
      機械学習の学習から評価、QAを行い、推論器をリリースして
      運用するまでの一連の流れをアーキテクチャやコードとともに解説します。
      (中略)
      【本書のゴール】
      ・機械学習を実用化する方法が学べる
      ・Pythonによる機械学習ワークフローおよびWebアプリケーション開発の概要を学べる
      ・機械学習を組み込んだシステムの運用ノウハウを得られる
      ・機械学習システムのトラブルシューティングや調査方法を学べる

    • 目次

      CHAPTER1 機械学習システムとは
      CHAPTER2 モデルを作る
      CHAPTER3 モデルをリリースする
      CHAPTER4 推論システムを作る
      CHAPTER5 機械学習システムを運用する
      CHAPTER6 機械学習システムの品質を維持する
      CHAPTER7 End-to-EndなMLOpsシステムの設計


33
44
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
33
44