教師あり学習(回帰)
scikit-learnの機械学習でボストン市の住宅価格の中央値を推定する
正則化
【機械学習】LPノルムってなんだっけ?
【Python/scikit-learn】ロジスティック回帰の使い方(L1・L2正則化で過学習の改善・防止)
Lasso回帰とRidge回帰:
以下の二つの記事で、なぜLasso回帰(L1正則化)のときスパースになるかわかる。
罰則付き・正則化回帰モデルについて
【初学者向け】L1正則化をわかりやすく解説【なぜスパースか】
超入門!リッジ回帰・Lasso回帰・Elastic Netの基本と特徴をサクッと理解!
教師あり学習(分類)
ロジスティック回帰
scikit-learnの機械学習でロジスティック回帰を行い癌の陽性を判断する
k-NN(k近傍法)とk平均法の違いと詳細
次元削減
ワインのサンプルデータを使用したPCA(主成分分析)によるデータの次元圧縮
教師なし学習
KMeans、MiniBatch-Kmeans(クラスタ分析)
(KMeansを使用し、3つの異なる品種のブドウから作られたワインをプロリンの量と色から分類する)
http://neuro-educator.com/ml9/
K平均法
k-meansよりもちょっとイケてるk-means++
DBSCANクラスタリングの解説と実験
DBSCAN
scikit-learnでDBSCAN(クラスタリング)
交差検証
一流の「ものさし」職人になろう Cross Validation (交差検証)を深堀り
nested k-fold cross validation
クロスバリデーションとグリッドサーチ(備忘録)
ブースティング
Gradient Boostingについて調べたのでまとめる
その他
不均衡データに対するClassification
ROC
scikit-learnでROC曲線とそのAUCを算出
【機械学習】RFEを用いた特徴量の選別
ソフトクラスタリング:データが複数のクラスタに属することを許す方法
プログラミング系
pandas の loc、iloc、ix の違い – python
NumPy配列ndarrayを一次元化(平坦化)するravelとflatten
pandasでカテゴリ変数をダミー変数に変換(get_dummies)
欠損値:
pandasで欠損値NaNが含まれているか判定、個数をカウント
欠損値を含むデータセットの前処理について
pythonで欠損値を平均で埋める
(fillna / Imputer)
https://www.marsa-blog.com/2019/07/statisticsarticle2.html#p4-1
データ変換:
Category Encodersでカテゴリ特徴量をストレスなく変換する
scikit-learnの複数列にわたるラベルエンコーディング
scikit-learnを使って業務CSVデータをOne Hot Vectorに変換する
kaggle/titanic 欠損値の補完と特徴量エンジニアリング
データ分割:
train_test_split関数でデータ分割
パイプライン:
機械学習/分類モデルの性能評価を行ってみる
sklearnのPipelineを使うとコードをシンプルに書けるらしい
Python: scikit-learn の Pipeline を使ってみる
モデルの評価とハイパーパラメータのチューニングのベストプラクティス
F1スコアとは:
sklearn.metrics.f1_score
scikit-learn でクラス分類結果を評価する
グリッドサーチ:
訓練セット全体を用いて訓練したモデルをテストデータで評価する
↓
モデルのパラメータ探索手法、「グリッドサーチ」ってなんだ
Model Selection Using Grid Search
Hyperparameter Tuning Using Grid Search
Scikit-learnによるロジスティック回帰
【Keras】GridSearch(グリッドサーチ)でハイパーパラメータを調整する
エルボー法:
k-meansの最適なクラスター数を調べる方法
DataFrame:
pandasのDataFrameのインデックスでの要素参照と代入
その他:
Python でのデータ分析作業をスマートにするために