前書き
データ活用基盤開発やデータ分析コンサルなどを行っている統計屋のあんちべと申します。
本記事では、筆者らが12/5に出版した書籍「[実践]データ活用システム開発ガイド: 10年使えるシステムへのスモールスタート」を紹介します。
本書は「誰でも簡単にデータ活用ができるシステムを、少人数チーム・低コストという制約の中、将来的な拡張性を持った設計で開発・運用する」ための案内書です。
https://amzn.to/3itEm9d
データ活用基盤とは
データ活用基盤とは、データ活用に関する様々な機能を有したシステムのことです。
具体的にどのような課題を解決すべく、どのような機能が求められるか説明します。
- 必要なデータがどこにあるかわからない・アクセスできない → 社内に散らばるデータを一箇所に収集し、それを(適切な権限設定をしつつ)誰でもアクセスして閲覧できるようする
- データの集計や加工、分析が大変 → SQLや色々な機能を用いて、誰でも簡単にデータの集計や加工、分析を行える
- レコメンドやモニタリングなど高度なデータ活用がしたい。そのためにはデータの堅牢性(毎日必ず決まった時間にデータが用意されている、されなかった場合の自動対応がシステムとして組み込まれているなど)が必要 → データの状況監視や問題発生時の自動解決(失敗した処理を自動で再実行するなど)をシステムとして組み込む
本書ではこれらの内容について、解説→ハンズオン形式という流れで説明します。
データ活用基盤開発の難しさと執筆の背景
データ活用に関する市場の声は年々大きくなってきています。高度な統計学や機械学習、また、AIやDXなどの話題に事欠きません。それらのデータ活用を実現するためには、兎にも角にもデータが必要です。
そして、データを用意するためには、データを収集・蓄積し、誰でも簡単にデータを集計や可視化できるようなシステムである「データ活用基盤」を開発することが大変有効です。
しかし、ここで大きな壁が立ちはだかります。実務のデータ活用では、AIの精度やデータ活用する人のスキルよりも、データ活用基盤を開発・運用する難しさこそがよくネックになります。なぜならば、データ活用基盤には「鶏が先か卵が先か」のような議論がついて回ってしまうからです。それは「どのようなデータ活用基盤があればいいのか、実際にデータ活用してみるまではわからない」と「データ活用するためには、まずデータ活用基盤がないと進められない」というループです。このループのせいで、ニーズを把握しないまま誰も使わないような重厚長大で扱いづらいデータ活用基盤を構築してしまったり、逆に、いつまでもデータ活用基盤がないまま現場のデータ活用者が非効率な作業に陥ってしまったりすることがよくあります。
筆者(と書籍の著者陣)も例外ではなく、各々でこのループに長らく苦しんで来ました。それでも、議論を重ね設計し、手探りで開発・運用を続け、時には設計レベルからの大きな変更を乗り越え、一歩一歩長い間改善を重ねることで、ようやく広く使われるような大規模なデータ活用基盤へと成長させることに成功しました。
筆者らは「この成功まで長い道のりの知見が、もし10年前にあったならば…」と痛切に思うようになりました。そんな思いを抱いていたある日、著者陣の1人である徳永氏が「この知見をぜひ共有したい」と筆者らに呼びかけ、「データ活用システム開発ガイド」を執筆することになりました。
本書のコンセプトについて
本書の目指すデータ活用基盤の方向性と完成度
データ活用基盤において、データそのものや利用者のニーズは様々なため、唯一無二の正解はなく、また「どんな時も100点満点の万能策」もありません。
そこで、筆者らは「大抵のケースで80点が取れるような汎用的な基礎、さらには将来的に95点が目指せるような段階を追ったデータ活用基盤開発の道のりを、誰もが知り得ること」を目指しました。
本書は主にGoogle Cloudを用いて説明しています。ただし、汎用性を目指しているため、Google Cloud特有の機能を利用することはほぼなく、容易にAWSやAzureなどへ移行可能なシステム構成を取っています。
本書の構成
本書は2部構成になっており、第1部でシステム化されていない状況からごく少人数・省コストで最低限稼働するデータ活用基盤開発を目指します。2部では1部で開発した基盤をより堅牢かつ多機能なシステムにすべく発展させる内容になっています。
このようにして、データ活用を検討する企業の成熟度次第で発生し得る様々なシチュエーションに対応できる構成を目指しました。
終わりに
本書はかなり地味で泥臭い本です。高度なトピックスや最新情報が網羅された書籍ではありません。それらは、言い換えるなら、データ活用の遥かなゴールを目指すための書籍といってもいいでしょう。
それに対して本書は、データ活用の一歩目を踏み出し、その歩みがその先へと続くための指針を得るべく、コスパよく最低限稼働するデータ活用基盤を開発し、そこで売上貢献し基盤の価値を全社的に認められ、徐々にシステムもチームも大きくする…という流れを目指して執筆しました。
本書が暗中模索のデータ活用へ果敢に挑もうとされる皆さんへのコンパスになることを心から願っています。
謝辞
本記事を作成するにあたり、SinkCapitalの @Booklin からアドベンドカレンダーの紹介を頂きました。本書の内容が、様々な規模や課題についてデータ活用を用いた解決を行うSinkCapitalのコンセプトに合致すると思い、喜んでJoinさせて頂きました。
ぜひ「今後データ活用基盤を開発したい」、あるいは「今あるデータ活用基盤をより良いものにしたい」とお考えの方に本記事が届けばと願います。