Aidemy 2020/10/29
はじめに
こんにちは、んがょぺです!バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます!
今回は、機械学習の前処理の1つ目の投稿になります。どうぞよろしくお願いします。
*本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。
今回学ぶこと
・データ分析の流れ
データ分析の流れ
・データ分析の流れ(プロセス)として、CRISP-DMやKDDといったものが提唱されている。
CRISP-DM
・CRISP-DMは、以下のようなプロセスになっている。
①ビジネス理解:課題は何か、データ分析を使ってどうするかを明確にする。
②データ理解:データの取得、データが分析に使える形かを理解する。
③データ準備:データを④モデリングで使える形に整形する。
④モデリング:データにモデルを適用し、分析する。
⑤評価:分析結果が十分であるかを評価する。
⑥適用:実際に課題や業務に分析結果を適用する。
・ただし、これらのプロセスは必ずしも一方通行のものではなく、必要に応じて戻ることもある。
・今回学ぶデータの前処理は、このプロセスの②③にあたる。
KDD
・KDDは以下のようなプロセスになっている。
①データ取得:課題や目標を定めてデータを取得する。
②データ選択:取得したデータのうち、分析(データマイニング)に使うデータを選択する。
③データクレンジング:欠損値や外れ値の削除などのデータクレンジングを行う。
④データ変換:クレンジング済みデータの形式をデータマイニングに使える形式に変換する。
⑤データマイニング:変換したデータに対して回帰や分類などを行って分析、学習を行う。
⑥解釈・評価:データマイニングで得られた結果からパターンを解釈し、評価する。
今回は以上です。最後まで読んでいただき、ありがとうございました。