記事の対象者と内容
記事の対象者は、これから企業のユーザー行動や売上のデータ分析をしようとする方、Excelでやるにはちょっと面倒なデータ分析をしなければなくなった研究者などを対象としています。
「デキる」データ分析者が求められる背景
近年、IT企業ではデータ分析をして、UIやUXの細かな向上やグロースハック施策の実施につなげることが、非常に重要になってきました。
大学等の研究でも、高度なデータ分析を駆使していかなければ、他の研究者と差別化できないようになってきています。
そこで、本記事では、データ分析をこれから行いたいと考えているデータ分析/プログラミング初心者に向けて、今後の時代に求められるデータ分析能力と勉強法について書きたいと思います。
データ分析者に求められる能力とは
- データを正しく見る論理的思考力
- 統計や機械学習などの高度な分析手法
- データの整形や集計ができるプログラミング力
- データ分析まで見越したプロダクト開発や実験を計画をできる設計力
※注:面倒なのでSQLもプログラミング的なものとしてひとくくりに語ります。
価値の出せる一流の分析者になるには、上記すべての能力が必要であり、
上記の中でも最も重要なのは、4の「データ分析まで見越したプロダクト開発や実験を計画をできる設計力」であるというのが、本記事の趣旨です。
1. データを正しく見る論理的思考力とその勉強法
データを正しく見る論理的思考力とは
これが地味に結構難しい。
そして、自分ではできているつもりでいて、意外にできていない人が多い印象です。
例えば、アプリ内でAという行動を取るかどうかが継続率に寄与するかを分析する際、
- 「Aという行動を取った人のうち継続した人」と「しなかった人」の割合
- 「継続した人のうちAという行動を取った人」と「取らなかった人」の割合
- 「Aという行動を取らなかった人のうち継続した人」と「しなかった人」の割合
これらの意味は当然違うものですが、あなたの分析において大事なのはどの指標でしょうか?
これらがどういう値だった場合にどういう分析を行い、次にどのような施策を打つのでしょうか。
下図のような例では、
1の「Aという行動を取った人のうち継続した人の割合」は十分に大きく、
2の「継続した人のうちAという行動を取った人」と「取らなかった人」の割合はほぼ同じであるにも関わらず、
3の「Aという行動を取らなかった人のうち継続した割合」が大きいために、
Aという行動を取らせない方がむしろ良い可能性があります。
Aという1つの行動だけならまだ単純ですが、同時にBという行動もしたかどうかで分析するとなると急に複雑になってしまいますね。
頭がこんがらがらずに、きちんと状況を理解し、改善策まで考えることができますか?
データを正しく見る論理的思考力の身につけ方
これは、いろんなパターンを見て考え、誰かと議論をしていくことでしか身につきません。
日頃から、ニュースやいろんな数字を見る際に、「本当なのか」と自分の頭で考えることも重要です。
ちょっと前に、
「数字は嘘をつかないが嘘つきは数字を使う」
なんていう言葉も話題になっていましたね……
データや論理から真実を読み取る能力は現代人には必須の能力と呼べるのではないでしょうか。
3番目のような本を読み、日本語力を鍛えることも重要です。
人間は言葉で数値を操り、人を騙すのですから。
数字と論理的言葉の扱いを徹底的に身につけ、これからのビッグデータ時代をサバイブしましょう。
2. 統計や機械学習などの高度な分析手法とその勉強法
統計や機械学習などを使いこなせる数学力とは
こういった数学的な能力や知識がどの程度必要なのかは、あなたがいらっしゃる現場次第でしょう。
簡単なABテスト、コホート分析やファネル分析を行うだけなら必要ないかと思います。
これらの分析手法を駆使すれば、下記のようなグロースハック施策を考えることは十分可能です。
ですが、今あるデータ数で十分な判断が可能か?
十分に正しい判断ができるようなデータのとり方がきちんとできているか。
というような、少し深い問いを考えるだけで、多少の統計的な知識と数字への理解が必要になってきます。
USJや丸亀製麺のV字回復でしられるマーケターの森岡毅氏は、
著書『確率思考の戦略論 USJでも実証された数学マーケティングの力』の中で、
「数学的思考」で消費者の行動を深く洞察しようと説いています。
さらにいえば、現代でビジネスを行う以上、AIやDeep Learningといったものへの深い理解は必須です。
残念ながら多くの人が、AIを漠然としか捉えておらず、話すことのほとんどが的はずれです。
あなたは、競合他社が「AIを使って顧客データを〜」と言ってきた時に、どのようなことをしているのか想像がつくでしょうか。
「そんなことうちだってできる」「うちならもっと価値のあることにデータを使える」と堂々と言えるでしょうか。
実は、AIを理解するのそこまで高度な数学的能力は必要とされません。
高校数学をなんとなく覚えている人であれば十分に理解可能です。
別の記事で「AI入門」も書きたいと思います。
統計や機械学習などの高度な分析手法の勉強法
これも手を動かして勉強するしかありません。
手を動かして統計や機械学習を勉強するには、簡単なプログラミングができた方が効率がいいと思います。
3ともかぶりますが、これが、分析者もプログラミングを身につけた方がいいと、ぼくが思う一つの理由です。
データをいじって体感した方が、結局理解が早いですからね。
繰り返しになりますが、ExcelでもできるようなことをBIツールでできるようしたいだけであれば不要かもしれません。
(まずはそういった当たり前のことができるようになりましょう。)
でも、そんなものは誰でも訓練すれば、できるようになります。
そういった分析者たちの一歩先をいく、ちょっと高度な分析手法を勉強するなら、プログラミングを使って手を動かしながら勉強するのがいいと思います。
- Pythonで理解する統計解析の基礎
- Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
- ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装
3. データの整形や集計ができるプログラミング力
データの整形や集計ができるプログラミング力は必要か
分析担当者がプログラミング力を身につけるべきかは最も意見の分かれるところだと思いますし、実際いろんなことを言う人がいます。
(正確に言うと、SQLはプログラミング言語ではありません。ですが、細かい区別は無視します 笑)
両者のおっしゃっていることはどちらも正しく、理解できます。
(前提にしていることもそれぞれの記事で異なりますし。)
冒頭でも述べたように、ぼくは、必要派です。
4でも詳しく説明しますが、より正確に言えば、「周囲より一歩先にいき、本当に価値のあるプロダクトや実験をつくれる分析者」になるためには必要だと考えています。
簡単に説明すると、以下のような理由があります。
BIツールは決して万能ではない
世に便利なBIツールはたくさんあります。
それら製品は素晴らしく、データの民主化を進めてくれるものとして、非常に価値のあるものです。
日本の全企業がBIツールを使いこなし、PDCAを回しまくれば、日本経済は爆速で成長するでしょう。
ですが、プログラミングやSQLを使わずにできることには現状限られています。
多くのBIツールでは、データ集計や統合のところのSQLのクエリは自分たちで書かなければなりません。
実際、高度なことができるとうたっているBIツールも、その実は、「内部でPythonコードを書いて実行できますよ」ということだったりします。
メルカリのデータサイエンスチームと分析エコシステムのはなし
この記事によると、
メルカリでは非アナリスト職でもSQLを書いて、簡易な分析は自分で出来る人が多いですね。
最近は財務部、経理部、法務部、デザイナーまで勉強中という噂もあります。(事実です)
とのこと。
分析するためにSQLを実行する必要があるから、みんながんばって勉強しているのですね。
そして、さらに重要なことは、
データは口を開けて待っていても降ってこない
ということです。
データを分析をするには、当然データを集めなければなりません。
超データドリブンで完璧な分析基盤が整っているハイパーつよつよ企業で働かれている分析者はいざしらず、
まだ分析基盤の整っていないスタートアップや、分析という概念すらままならない中小企業の分析者はデータを自分たちで集めるしかありません。
自分で集めたデータの分析とスマートな施策案、そして、施策を実施した後のチェック方法とネクストアクションまでを計画しましょう。
そして、結果を出す。
これが、「データで語ること」の重要性を示す一番簡単な方法です。
さらに、データ分析基盤を作る上でも分析者の役割は非常に重要です。
データ分析にまで明るいインフラエンジニア、データベースエンジニアが社内にいるとは限りません。
他人任せで、勝手に作られたデータ分析基盤で、本当にあなたが欲しいデータは集まりますか?
データ分析基盤を外注して、本当にしたかった分析ができなかった時どうしますか?
そして、次の4でも詳しくお話しますが、「これからの」分析者には、プロダクト開発や実験計画などの上流の設計までを経営層やエンジニアと議論できることが求められると思います。
簡単な分析はどんどん自動化されたり、便利なツールが出てきて、人間は不要になっていきますからね。
データの整形や集計ができるプログラミングの勉強方法
こちらも実際に手を動かしましょう。
- Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理
- SQLデータ分析・活用入門 データサイエンスの扉を開くための技術 MySQL/PostgreSQL 両対応
- いちばんやさしいグロースハックの教本 人気講師が教える急成長マーケティング戦略
上記のような本を読みながら、いまExcelでされていることをPythonなどのプログラミング言語で置き換えていくことが、一番手っ取り早い勉強方法でしょう。
そして、本を見てテキトーなデータを準備して、無料のBIツールやSQLをいじってみることをオ
ススメします。
(プログラミングの勉強法なのに、ITの知識がまったくない方には難しいことを要求していますね………泣笑)
そして、3番目のような本に出てくる分析を実際にPythonやSQLでやってみましょう!
4. データ分析まで見越したプロダクト開発や実験を計画をできる設計力
本当に大切なのは、データ分析までを見越したプロダクト開発や実験計画を行うことです。
これが本記事の「結論」です。
データ分析まで見越したプロダクト開発や実験計画の重要性
今後、BIツールはどんどん便利になり、できないことはほとんどなくなってくるでしょう。
現に、機械学習などの高度な分析も、誰もができるようになってきています。
さらに言えば、基本的なデータ分析は自動化され、重要な指標はツールが見つけてくれるようになるでしょう。
ですが、本当に「重要」かつ難しいのは、今後どのような仮説を持って分析をし、そこからどのような示唆を得て、どのような施策につなげるのか、をプロダクトの設計や実験の計画段階で考えておくことです。
プロダクトのリリース前から新ダッシュボード「Looker」の導入に踏み切ったわけ
この記事では、メルペイが、プロダクトのリリース前からデータ分析基盤を整えていたことが書かれています。
実際、プロダクトの設計や実験の計画段階で、データ分析のことを考えておかなければ、欲しいデータが取れなかったり、分析した結果が信頼できないものだったりすることが起こってしまいます。
例えば、欲しいデータ分析をするためには、どういったログが必要なのか。ABテストなどをするにしても、どれくらいの期間、何人に対してどのような方法で実施するのが妥当かなどを考える必要があります。
ここまで自動化されるには、もう少し時間がかかるでしょう。
だからこそ、データが民主化される現代において、データ分析とビジネスの基礎体力だけではなく、データの収集やプロダクト開発まで知っている「分析者」 兼 「設計者」が真に必要になると考えています。
データ分析まで見越したプロダクト開発や実験計画の勉強法
結局は、これも実践ありきですね 笑
徐々にデータ分析基盤の整ってきたものの、上位レイヤーのデータ分析者が不足してるスタートアップは、たくさんあります。
逆に言うと、実績が出てきていて、これから急拡大していこうというスタートアップのほとんどが、「1人でデータの整形・収集から分析、分析結果に基づく施策出しとPDCA計画を組める」分析者を求めています。
そういう企業で自分一人でガンガン結果をだす。
いろんな人を巻き込んでPDCAサイクルをブン回す。
こういった分析者になることができれば、どこにいっても価値を出すことがデキるでしょう。
マーケティングやグロースハック的な簡単なデータ分析をしていた人が、この記事に書かれているような方法で、エンジニアリング力をつけるのも一つの道です。
現在PMをつとめている人が、データ分析までガンガンやっていくというのもいいですね。
つよつよデータ分析マンになり、周囲のデータ分析デビューを助け、データで殴り合うパーリナイをしましょう!!