株式会社デジサク がお送りするプログラミング記事、
今回はAI(機械学習)について扱っていこうと思います。
※ 無料セミナーも開催中なので、ぜひご覧になってみて下さい。
はじめに
kaggleや学習サイトなど誰でも機械学習を学べる機会が増えてきました。
その反面、情報量が多すぎて全体感を掴めていない人が多いと感じています。
そこで、様々な参考書や記事で紹介されている機械学習で使用する手法を全公開しようと思います。
細かなコーディングはリンクを貼っておくので、そちらを参照されてください。
SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら
Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。
機械学習の一連手順
まず、機械学習を習得するために必要なスキルは下記です。
実務の場では数段細かな作業が必要になりますが、最初は下記を勉強するだけで十分です。
- 1)データの可視化 :データの全体感を掴んで前処理の方針を決める
- 2)データの前処理 :予測精度が高くなるよう、データを綺麗にする
- 3)アルゴリズムの選定:データに対して適切なアルゴリズムを決める
- 4)モデルの学習 :コンピュータにデータの法則性を学習させる
- 5)モデルの検証 :出来上がったモデルの予測精度を確認する
1)データの可視化
2)データの前処理
-
欠損値の処理
- 除去
- 補完
-
データのスケールを揃える ※数学の部分が難しいので、飛ばして読んでください
- 標準化
- 正規化
- カテゴリカル変数のエンコーディング
-
テーブルの結合(DataFrameの結合)
- merge
- concat
3)アルゴリズムの選定
リンクはこちら
- 回帰
- 線形回帰(単回帰、重回帰)
- 回帰木
- ランダムフォレスト回帰
- 分類
- ロジステック回帰
- 決定木
- ランダムフォレスト
- サポートベクターマシン(SVM)
- どちらにも使える
- ニューラルネットワーク(ディープラーニング)
- XGBoost
- LightGBM
4)モデルの学習
-
バリデーション
- ホールドアウト法
- 交差検証(クロスバリデーション)
-
パラメータチューニング
- グリッドサーチ
- ランダムサーチ
- (応用)ベイズ最適化
5)モデルの検証
-
評価指標(回帰) ※こちらの記事も分かりやすいです
- RMSE ( Root Mean Squared Error )
- RMSLE ( Root Mean Squared Logarithmic Error )
- MAE ( Mean Absolute Error )
- 決定係数
-
評価指標(2クラス分類)
- 混同行列(TP, TN, FP, FN)
- Accuracy
- Precision
- Recall
- F値
- LogLoss(クロスエントロピー誤差)
- AUC(ROC曲線の面積)
-
評価指標(多クラス分類)
- multi-class accuracy
- multi-class logloss
- mean-F1, macro-F1, micro-F1
さいごに
情報は随時増やしていこうと思います。
追加・訂正要望がありましたらご連絡いただけると大変助かります。
また、「機械学習を仕事に使うシリーズ」でも記事を書いてます。ぜひご活用ください。
SNS でも色々な情報を発信しているので、記事を読んで良いなと感じて頂けたら
Twitterアカウント「Saku731」 もフォロー頂けると嬉しいです。
また、文末にはなりますが、期間限定で「チーム開発体験プロジェクト」をやってます。
もしご興味あれば【応募シート】で詳細確認してください。
(追記)
満員のため締め切らせて頂きました。
次回は2019年3月を予定しているので、ご案内を希望される方は【予約フォーム】にご記載ください。