はじめに
データサイエンティストとしてのキャリアに挑戦してから1年が経ちました。
「何書いてあるかさっぱりわかんねぇ..(コードと格闘しながら)」
「意思決定の場面を想定して、どんなグラフを出力すべきなのかな..」
「非データサイエンス領域のクライアントに対してモデルの性能や評価指標をどうやって説明しようかな..」
「ビジネスでモデルを活かすためにはこの問題設定で良いのかな..」
などなど、1年目はとにかく自分が勉強してきたことをフル動員で組み合わせながら、目の前の問題に取り組んできました。
そうしたなかで、「あ、自分バリュー発揮できているな」と感じる瞬間もポツポツと生じるようになり、キャッチアップしたことが少しずつ、されど確実に己の血肉となっていることを実感できるようにもなりました。
本記事では、これからデータサイエンティストに挑戦されようとしている方、データサイエンティストのスタッフクラスの方、後進データサイエンティストの育成を任されている方に向けて、データサイエンティスト2年生の目線で、実務で役立った書籍6選を紹介いたします。
なおデータサイエンティストはジェネラリストやスペシャリストとは異なり、セヴェラリスト(Several=複数)的なキャリアであること、具体的にはビジネス・エンジニアリング・アナリティクスの3領域の複合キャリアであることから、紹介する書籍も技術・理論系に留めず、実務でデータサイエンティストに求められることにフォーカスして紹介させていただきます。
1.現実世界とデータ世界を行ったり来たり
まず1冊目は分析者のためのデータ解釈学入門(ソシム. 2020.)
現実世界(ビジネス)で解決したい問題に対してデータ分析を通じて解決したり、その逆でデータ分析によって得られた示唆を現実世界へ落とし込んだり、データサイエンティストは現実世界とデータ世界をまるで"Google Earth"のように行ったり来たりします。そして、この際に現実世界とデータ世界との間に生じるギャップは常に頭に入れておく必要があります。
例えば、交絡因子の見落としや第一種過誤が発生すると、データ分析から得られた知見をビジネス施策に落とし込んでみても効果が得られない、といった状況に陥りかねません。
この本では 「データを通して現実世界の問題を解く際に留意しなければならない作法やデータから物事の本質を見極めるための作法」 がまとめられており、"長年のデータ分析によって培われる勘所"のようなものを身に付けられたように感じました。
学生時代にデータ分析の経験こそあるものの、業務としてのデータ分析歴が浅い自分にとっては、同僚や先輩と同じ目線で会話する上で重要な1冊となりました。
補足
この本と同シリーズの「数理モデル入門」や「統計学入門」も初学者視点では全体感を掴みやすく、まず最初に手に取る本としては推奨できる書籍だったので、気になった方はぜひ手に取ってみてください!
2.データを自由自在に操作できるようになる
2冊目はデータサイエンス100本ノック構造化データ加工編ガイドブック(ソシム. 2022.)
「モデリングするために、DWHからデータ抽出して特徴量作作ってデータフレームにまとめて!」
「EDAしたいから、こんな切り口でデータの集計をお願い!」
1年目の最初の業務では、データの抽出や加工、集計を任されました。
そうしたなかで、目的に沿ったデータの抽出・加工・集計・可視化をするために、データの操作に慣れることはデータサイエンティストとして最初に目指す目標のひとつだと考えました。
自由自在にデータの操作ができるようになるには、どうすれば良いのか?
「反復練習しかない!!」
ということで、ドリル用として手に取った本がこちらでした。
データ操作に慣れない段階では特にイメージが湧きづらい横持ち縦持ち変換、パーティション、結合、Date演算など、この本に記載されているコードを暗記するレベルまで繰り返し解き進めていった結果、意図する結果になるクエリを書く時間が圧倒的に短縮されました。
ただし注意点として、100あるサンプルのうち、3~4割ほどは業務で使う機会が(今のところ)無かったため、もし可能であるなら同僚の方に「業務で頻出するもの/全く使わないもの(=その都度リファレンス調べるやり方で良いもの)」の整理をしていただいてから本書籍をドリルしていくのが良いかもしれません。
補足
SQLに関してはPostgresql準拠の内容となっているため、業務で使うSQLがPostgresqlやRedshiftであるなら尚更推奨です!
3.モデリングプロセスの"いろは"を身につける
3冊目はKaggleで勝つデータ分析の技術(技術評論社. 2019.)
Kaggle本として有名な本書ですが、問題設定、特徴量エンジニアリング、データ分割、モデリング、評価、チューニング、アンサンブルと、モデリングの一連のプロセスを体系的に理解することができる本です。
初学者目線ですと、AutoMLツールを使ってモデリングを行う際、「この部分ではこんな事をやっている」と、実務で使うツール理解にも繋がりました。
また、SVMなど知っておくべきだが実務では利用する場面が無いアルゴリズムの説明を簡略に留める一方で、実務でよく使う勾配ブースティング系のアルゴリズムの説明を厚くしていたり、この手のモデリングプロセスを理論+コード写経で理解する系の本の中では、実務で活かせる理論+ツール操作を身につけられたように感じました。
専門的な理論書や公式ドキュメントを辿っていく前の足掛りとして、モデリングの全体像をおさえる本としては、最高の一冊でした。
4.モデルのビジネスインパクトを理解させる
4冊目は評価指標入門(技術評論社. 2023.)
「MAPEがXX改善されました!」
「AUCがYYの高性能なモデルができました!」
非データサイエンティストの方がこのような報告を受けて、どのように思うでしょうか?
モデルの性能云々よりも、報告で聞きたいのは、「このモデルによって我々のビジネスがどれほど改善されるのか?」 でしょう。
データサイエンティストに対して支払われるフィーというものは、「高度なモデルを構築すること」に対してではなく、「モデリングや分析を通じて、KPI改善や問題解決を実現すること」に対して支払われるのではないでしょうか。
本書では、評価指標の改善(データ世界の改善)がKPI最適化(ビジネス世界の改善)に必ずしも繋がるものではないと警鐘を鳴らしたうえで、KPIの特質を損失関数や評価指標に落とし込む考え方やビジネスインパクト試算による評価方法が記載されており、まさに「データサイエンスとビジネスをつなぐ架け橋」的な方法論を身につけることができます。
我々の血と汗と涙の結晶であるモデルがどれほど優れているか?を、データの世界ではなく、ビジネスの世界でも語れるようになれた一冊でした。
5.データサイエンティストとしてプロジェクトやクライアントをリードする
5冊目はコンサルが「最初の三年間」で学ぶコト(ソシム. 2023.)
「え?コンサルのビジネス本??」
と困惑されるかもしれませんが、データサイエンティストとコンサルタントの両者の間には大きな共通点があります。
それは問題解決能力です。
問題を解く際のフレームワークはコンサルと一緒、違うのはデータを用いたアナリティクスやエンジニアリングが登場するかどうかに限ると思います。
この本で紹介されている、「論点→サブ論点→タスク→スケジューリング→作業→アウトプット→ディスカッション」のプロセスの中でも、論点→サブ論点→タスクは特にデータサイエンティストこそ身に付ける"お作法"であるように感じました。
プロジェクトを進めていく中で、クライアントや上司との目線を合わせる際に、「とりあえずデータ集計・分析してみた」といった数字遊びの結果を見せては、「結局何が言いたいの?」と気分を害してしまうかもしれません。
同じ分析結果を見せるにしても、
論点:「サービス改善に向けて、顧客獲得コストを改善可能か?」
サブ論点:「利用顧客とその他の顧客とでは、どんな違いがあるのか?」
タスク:「利用顧客を1、その他の顧客を0として二値分類問題を解くモデルを構築し、shap waterfall plotやfeature importanceを確認して利用顧客の特性を洗い出す」
といった問題の構造化ができているだけでも、"つまずき"が目にみえて無くなるかと思います。
問題解決能力だけでなく、期待値コントロール、良質なアウトプットを出すために必要な事など、データサイエンティストにとっても大事な事が書かれており、仕事で"打率"を上げたい、という気持ちがある方は是非。
6.ドメイン特化知識で差をつける
6冊目はAI審査モデルの基礎知識(金融財政事情研究会. 2022.)
ドメイン特化の本だけあって、この本は紹介すべきか悩みましたが、前述の5冊同等かそれ以上のバリュー発揮に繋がった一冊のため、紹介させていただきます。
金融、とりわけ信用リスク管理がテーマの案件に携わっていたため、フィールドとなる審査業務や信用リスク管理業務については当然のように知っておかねばと思い、手に取った一冊でした。
スコアリングモデルを導入することによるビジネス的価値は、審査業務高速化や客観化がよく挙げられますが、この価値自体は金融だけでなく、他の業界においても挙げられるものかと思います。
では、信用リスク管理における固有価値は何か?
一例ですが、スコアリングモデルによって貸倒率を推定できるようになると、リスクに応じた金利設定や期待損失額の算出も可能になります。
このように、ドメイン理解を深めておくことで、データサイエンティストとして提示可能な付加価値の幅が広がりました。
会社のカラーかもしれませんが、アナリティクスやエンジニアリングの知識は豊富なものの、ドメイン知識を深めている人は意外に少なく、周囲との差異化を実現できた一冊でした。
むすび
以上、この1年間の自分のキャッチアップ内容と業務パフォーマンスを振り返ってみて、良かったと感じた本を独断と偏見で選び、紹介させていただきました。
「自分の一年目はこの本を読んだけど、その後もめちゃくちゃ役に立っているよ」
など、コメントやご指摘等もいただけると幸いです。