概要

文系大学3年生が

2019年度内までにKaggle Masterになる

過程において、
その日学んだことをアウトプットしていきます。
間違いやご指摘などが御座いましたらご教示願います！

バックグラウンド

春から文系の大学3年生です。
プログラミング・機械学習経験ゼロの状態から去年の夏頃fast.aiをきっかけに機械学習に触れ始めました。
ここ3ヶ月ほど、Kaggleに挑戦しようと試みたのですが、毎度のことhigh-scoring-kernelを模写して終わることが続きました。。。
そもそも、kernel模写してても分からないことだらけで手も足も出ず。。。
このままではマズイと思い、
一念発起して【Kaggle日記】始めます！

モデル別得意領域

線形モデル

ex) Logistic Regression, SVM

それぞれの損失関数を用いて、線形の区域分けにより、グループ別に分類する

得意領域高次元の過疎(sparse)なデータ
不得意領域比較的簡易的な手法であるため、限界が存在する

樹木モデル

ex) GBDT, Random Forest

「木構造の条件分岐で分類・予測(回帰)を行う」

得意領域精度が高く、目的変数が多くても作動する
不得意領域条件分岐のため、線形的なの特徴を見い出すのが不正確な場合がある

kNNモデル

ex) k-Nearest-Neighbors

近い距離ごとにグルーブ別に分類する

得意領域シンプルな手法であるにも関わらず有用な情報が包容されている事が多い
不得意領域意味的な(semantic)情報を抽出することができない

ニューラルネットワークモデル

ex) 深層学習

人間のニューロンを模倣した数理モデル

得意領域「情報空間内における予測や識別」
不得意領域未知の情報に対する予測や識別

参考・引用文献

最後に

改めてこうしてMLの手法を学び直してみると再発見が多かったです。

スクラッチから手法を書けるようにする
LightGBMやXGBoost のソースコードのぞいてみる
Highest Scoring Kernel を何としてでも一度超える。。。

最後に

間違いやご指摘などが御座いましたらご教示願います！

【Kaggle日記】 2019/04/09

概要