登壇
- Takashi J. OZAKI, Ph.D. @TJO_datasci
概要
自己紹介
-
銀座で働くデータサイエンティスト
-
アドホック分析
-
質問:どっちがどっち
- ロジスティック回帰
- SVM
- サポートベクター
- RBFカーネルSVM分類器
- ランダムフォレスト
- 変数重要度
- 記述可能
- 予測的
-
線形識別・回帰モデル
- 具体的な式で表せる
-
線形回帰
-
ロジスティック回帰
-
目的変数
-
説明変数
-
多変量
-
最小二乗法
-
interpretable
- 要素とそれに対するポイントからスコアを算出して、足し合わせる
- ロジット変換
- 線形分離可能パターン
-
xorパターン
- ロジスティック回帰は機能しない
-
交互作用項
- accuracy
*線形回帰ファミリー
- accuracy
-
階層ベイズ
-
二階差分モデル
- 今日と昨日のトレンドの差
- 昨日と一昨日のトレンドの差
-
季節調整(曜日)
-
7日周期モデル
-
階層ベイズモデル
-
カーネルSVM
-
LIBSVM
-
テイラー展開
-
低バリアンス手法
-
ランダムフォレスト
-
決定木
-
bagging
-
変数重要度
-
ノイズ
-
Deep Learning
-
ディープニューラルネットワーク
-
overkill
-
MXnet
-
tensorflow/playground
-
more interpretable, less predictive
-
less interpretable, more predictive
For human vs. For machine
- ヒトが意思決定をするため?システムのアウトプットを決めるため?
- for machineシステムの向こう側にいるユーザーにサービスするため、でもある
for fuman
- interpritable(解釈可能)である方が重要
- 判断の材料を出してあげましょう
for machine
- predictiveである方が重要
- プロセスより、高い結果を出してあげましょう
- interpritableなものを出すと精度が低いって言われるよ
hybrid
- 人が見たいが精度もほしい
- さぁどうする?
- そこまで含めて機械学習で実装してあげないとね
モデリング手法の特性を踏まえたうえでの手法選択 ==
キーワード
-
情報量基準
-
交差検証
-
クロスバリデーション
-
100%あたっちゃったケース
-
黄色い本
-
多項式フィッティング
-
汎化
-
過学習
-
AIC
-
L1正則化
実務において
- 特徴量
- デモグラフィック情報
- political correctness
バランスをどう取るかがビジネス応用のカギ
i or pを学習アルゴリズムに基いて知っておくことは重要
4h = i, 4m = p