Aidemy 2020/10/29
#はじめに
こんにちは、んがょぺです!バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます!
今回は、機械学習の前処理の1つ目の投稿になります。どうぞよろしくお願いします。
*本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。
今回学ぶこと
・データ分析の流れ
#データ分析の流れ
・データ分析の流れ(プロセス)として、CRISP-DM__や__KDD__といったものが提唱されている。
##CRISP-DM
・CRISP-DM__は、以下のようなプロセスになっている。
①__ビジネス理解:課題は何か、データ分析を使ってどうするかを明確にする。
②__データ理解:データの取得、データが分析に使える形かを理解する。
③__データ準備__:データを④モデリングで使える形に整形する。
④__モデリング__:データにモデルを適用し、分析する。
⑤__評価__:分析結果が十分であるかを評価する。
⑥__適用__:実際に課題や業務に分析結果を適用する。
・ただし、これらのプロセスは必ずしも一方通行のものではなく、必要に応じて戻ることもある。
・今回学ぶデータの前処理は、このプロセスの②③にあたる。
##KDD
・KDD__は以下のようなプロセスになっている。
①__データ取得:課題や目標を定めてデータを取得する。
②__データ選択__:取得したデータのうち、分析(データマイニング)に使うデータを選択する。
③__データクレンジング__:欠損値や外れ値の削除などのデータクレンジングを行う。
④__データ変換__:クレンジング済みデータの形式をデータマイニングに使える形式に変換する。
⑤__データマイニング__:変換したデータに対して回帰や分類などを行って分析、学習を行う。
⑥__解釈・評価__:データマイニングで得られた結果からパターンを解釈し、評価する。
今回は以上です。最後まで読んでいただき、ありがとうございました。