AI の PoC を実施するときに、CRISP-DM が参照されることが多いのではないでしょうか。
CRISP-DM は、ビジネス理解、データ理解、データ準備、モデル構築、評価、デプロイ、の6つのフェーズからなります。
その中でも、わかったようでわからないのが「データ理解」。(私だけかもしれませんが)
会社によっては、「データアセスメント」といって、データの項目、データ量、NULLの件数などをみるだけで、AI の GO/Not GO を判断していることもあるようです。
しかし、本当にデータを理解するには、「探索的データ分析」までやらないと、「理解」したといえないのではないでしょうか。
データ理解には、3つのポイントがあるように思います。
- 「データ理解」とは、具体的に何をすればよいのか?
- なんのために「データ理解」をするのか?
- 何が明確になれば、「理解」できたと言えるのか?
- そのための計画を立てられるのか?
このアドベントカレンダーでは、調べた内容、自分のまとまりかけのアイデアを、書き留めておきます。
(木金に更新予定)
(問題意識に共感してくださる方・自分はこうしてるよ!というノウハウをお持ちの方がいらっしゃれば、空き枠に自由にお書きください)
P.S. 12/15 まで仕事が入ってしまったため、別の日に書かせてください。