データ分析には機械学習とデータマイニングという用語がありますが、本稿はどちらかというとデータマイニング寄りの話になります。
本質を見抜く
データ分析に詳しくなりたいけど、未だ漠然としか把握できていないので、ここで一回初心に戻りたく、、、
要は中途半端なのです。
データ分析を学ぶにあたり、まずはデータ分析の本質を見抜く必要があると感じました。
データ分析に関心を持ち、今あるデータで分析してみたは良いけれど、分析結果を見てふと我に返ることがありました。
「で、何に使う?」
結局、単に経験値が上がっただけでした。
まだ個人だから良かったものの、これが企業だと無駄(ノーリターン)です。
データ分析の本質が見えていないってことになります。(反省...)
そもそもデータ分析って?
みなさんの考えをまとめてみました。
- 何らかの目的を持って表現された文字や符号、数値などを収集し、分類、整理、成型、取捨選択したうえで解釈して、価値のある意味を見出すこと
- 意思決定のため
- 統計分析を含むさまざまな分析手法やツールを用いてデータを分析し、それをビジネスに有用な情報へと置換すること
- ある目的(今回はビジネス)において不可欠な情報や数値、文字などを収集し、その集めたデータを分類・整理・成形・取捨選択した上で解釈すること
- 「経営戦略やマーケティングに有用なデータを得るための手段」
- 「数あるデータから有益な情報を探し出し、改善に役立てる取り組みのこと」
- 目的を持って収集・抽出したデータを解釈することで、課題解決に役立つ情報を見つけ出す手段
- 通常ビジネスの意思決定に役立つ情報を発見するために、データを処理、変換、およびモデリングするプロセス
- 統計学や機械学習、データ可視化を含む様々な分析手法やツールを用い、データ分析の結果をビジネスに有用な情報へと置換する過程
みなさんの言っていることは似ています。
共通して言えることは「目的」ありき、あくまでデータ分析は意思決定の手段でしかない、ってことだと思います。
そして、意思決定に役立てて初めて意味を成す。
とりあえずやってみる事は良い心掛けですが、ちゃんと「目的(ゴール)」を定めたうえでやってみることが大切なんですね。
そして、目的に沿う最適解を導き出す想像力がとても必要とのこと。
■フェーズ定義
- ビジネス(目的・課題)の理解
- データの理解
- データの準備(収集、データクレンジングなど)
- モデル作成
- モデル評価、改善
- 提供と共有
何事もビジネスの理解がスタートです、課題や目的です。いったい何が目的でデータ分析するの?というところ。
目的が明確になったら現状のデータ把握(理解)です。今あるデータで目的を果たせる分析ができるのか否か。
否の場合は目的や課題の見直しか、どんなデータが必要か精査をし、データ収集&クレンジングしてモデル作成準備をします。
データ準備を終えたら、モデル作成して評価と改善を繰り返します。
精度が良くなれば納品という流れになるのが一般的のようです。
■目的や課題を理解する
そもそも目的って何?ってなりました。
どうやら、「こんなデータ分析結果がほしい」とかではないようです。
もっと先、例えば、
- ある化粧品のターゲット層30代の女性のリピート顧客を増やす
- 市場に見合った販売・製造計画をして、余剰在庫を減らしつつ利益率を上げる
これらの課題解決の意思決定に必要な情報をいち早く出してあげたほうが良いようです。
ビジネスにおける意思決定は早いに越したことはありません。
■データを理解する
現状どんなデータがある?
今あるデータで目的を果たせるのか?足りないデータはないか?
どのような情報が必要?
足りないデータとして何が必要か精査します。
どのような情報(データ)が判断材料になるかを考えます。
収集困難だと思われる情報があれば、それは目的を果たせないことになるので、目的を変更するなどの措置が必要です。
どのような分析が必要?
判断材料になる情報が明確になったら、どこまで、どんな分析が必要かを見極めます。
ざっくりですが、
-
アソシエーション分析
関連性のない事象の関連性を見つけ出す。
よく聞く事例は「ビールと紙おむつ」
紙おむつを買う人は、併せてビールも買うという関連性を見つけ出し、並べて陳列したら売上向上みたいな。 -
バスケット分析
アソシエーション分析からの派生、商品に特化。レコメンドなど。 -
クロス集計分析
アンケートなど、属性などの項目を交えて集計。平均値など。 -
決定木分析
「もしも~」を繰り返して予測する。リスクマネジメント。 -
クラスター分析(k-平均法)
複数の異なる性質の集団から似たもの(類似性に基づいて)でグループ化。 -
ロジスティック回帰分析
多変量解析のひとつ。
Yes,Noで明確に定義して、事象の発生率などを予測する。
などなど。どうやら上記がビジネスデータ分析において主要な分析とのこと。
■データを準備する
データを収集
必要な情報、分析方法が定まったら、データ収集方法を決定し収集していきます。
目的を明確にしているため、その目的を果たすのにデータがないなら取得しないといけませんし、取得できないなら目的を変えるなどの措置が必要になってきます。
データクレンジング
収集したデータにはノイズがふくまれているため、このままでは分析できません。
加工や整理などのクレンジングが必要です。
■モデル作成
上記で説明した分析方法を用いてモデルを作成していきます。
※加工された学習用データや評価表データを用いたりします
■モデル評価と改善
データマイニングは探索的、発見的な手法です。
不可欠なのは、数値指標を用いて性能評価です。
また、分類モデルや回帰モデルによって評価指標は異なってきます。
予測精度や生成にかかく時間、何をもって良しとするかは、取り決めや、正直さじ加減などあるかもしれません。
複数のモデルを評価、比較して選抜するといったこともこのフェーズに含まれます。
■提供と共有
相手が理解しやすいフォーマットに加工して見せる必要があります。
PowerBIなどは可視化用のツールです。
まとめ
最適解を得るためには「仮説→分析→検証」を繰り返していかないといけません。
しかも、泥臭く導き出した最適解はあくまでも現時点における最適解であって、時が経って技術能力が向上すれば、その技術で導き出したものが最適解になります。
要は最適解にゴールはないってことになります。