この記事はフロムスクラッチ Advent Calendar 2016の7日目の記事です。
#想定読者
このエントリーは、以下のような人を対象にしています。少しでも、お役に立てたら幸いです。
- 最近ビックデータ活用やデータ分析という言葉を聞いて、分析してみたい!と一念発起した方
- とはいえ、エクセルは少々使ったことがある程度、統計もわからないし、何から初めていいのやら…と悩んでいる方
- たまたま行き着いたカブトムシ好きのマニアックな方
#自己紹介
フロムスクラッチというベンチャーにて、コンサルタントとして自社プロダクト(B→Dash)の導入支援、活用のサポートをしている新卒1年目です。これまでアパレルEC中心に複数のクライアント様の事業のお手伝いをする中で、文系出身ながら日々データと格闘させていただいております。
#データ分析を始めるにあたって
最近「ビックデータ活用」や「データサイエンティスト」など、
「データ」に関連するキーワードが周りに溢れています。
読者の皆さんの中にも、
「社内にあるデータをとりあえず分析してみてよ!」と
上司から無茶振りされた経験をお持ちの方がいらっしゃるのではないでしょうか。
しかし、いざやろうとしたものの、
「難しい統計用語の意味がわからない」
「エクセルや分析ツールを使いこなすITスキルがない」
「そもそもデータって何!?」と
何からすべきかわからない方もいらっしゃいますよね。
(むしろそのような方が大半かと思います。)
本日はそのような方々向けにデータ分析の足がかりの一つとして
「データの視覚化」について書かせていただきます。
これは自分が大学時代に収集したカブトムシのデータです。
例えば、このデータを分析して何か示唆だしをしてくれ、と頼まれたとします。
データの内容は以下となっています。
hornlength:頭角長(角の長さ)
まずは真っ先に思い浮かぶ、平均と最大値/最小値を出してみましょう。
平均:22.72mm
最大値:27.75mm
最小値:16.12mm
平均:27.98mm
最大値:35.08mm
最小値:12.11mm
どうですか?
正直「うーん、ここからどうしよう?」となりますよね。
ここで次の一歩として今回のてーまである「データの視覚化」をしてみましょう。
一般的な視覚化の手法である以下の2つを今回は行います。
- ヒストグラム
- 散布図
いかがですか?
前胸幅は平均を中心に1つの山になっていますが、
一方で頭角長には山が2つありますよね。不思議です。
続いて頭角長と前胸幅の関係性をみるために
散布図(縦軸:頭角長、横軸:前胸幅)を書きます。
この散布図をよく見ると
以下のように2つのグループに分かれそうですよね。
このようにデータを視覚化することによって
何らかのきっかけ(傾向、違いなど)を見つけることができれば、
- そもそも違いって本当にあるんだっけ?(検定)
- 2つの違いって何なんだろう?(比較)
といった一歩先の分析に進めます。
自分は所属していた大学で捕まえたカブトムシにおいて
2つのグループが存在することを上記の方法で確認したうえで、
自然界では常に自然淘汰による最適化が行われているという仮説のもと、
資源(幼虫時の栄養摂取量)制約付きの効用最大化問題と戦闘戦略の分析を行いました。
(我ながら今振り返ると変なことやっていますね…笑)
実際の分析では
- データ分析の目的が明確か?
- 目的に沿った分析を行うのに必要なデータ、ツール、体制が整っているか?
がデータ分析の成否に大きく影響します。
それでも、
まずは視覚化してみるだけでも新たな発見があるので、
ぜひ試してみてください!
#実務でのデータ分析
最後に自社にて行っている
データ分析を少しだけ紹介させていただきます。
実務での分析といえば、
「おむつとビールがしばしば一緒に買われている」で有名なバスケット分析や
広告効果を分析するアトリビューション分析といった分析が一般的です。
弊社でも上記のような分析をすることもありますが、
広告データ、Web/Appデータ、ビジネスデータ(顧客情報や売上情報)を
統合することが出来るという自社プロダクトB→Dashの強みを活かして、
ランク付けした顧客に対してWebやアプリ、広告、売上などの情報を紐付けることで
ストーリー性のある分析を行い、クライアント様の事業成長をサポートしています。
#まとめ
- データ分析に困ったらまずは視覚化してみよう
- カブトムシって不思議で面白い(興味ある方はコメント下さい)
※データ分析よりカブトムシに興味を持った方には以下の本がおすすめです
カブトムシとクワガタの最新科学 (メディアファクトリー新書)