登壇
- Takashi J. OZAKI, Ph.D. @TJO_datasci
概要
*
自己紹介
- 銀座で働くデータサイエンティスト
- アドホック分析
- 質問:どっちがどっち
- ロジスティック回帰
- SVM
- サポートベクター
- RBFカーネルSVM分類器
- ランダムフォレスト
- 変数重要度
- 記述可能
- 予測的
- 線形識別・回帰モデル
- 具体的な式で表せる
- 線形回帰
ロジスティック回帰
目的変数
説明変数
多変量
最小二乗法
-
interpretable
- 要素とそれに対するポイントからスコアを算出して、足し合わせる
- ロジット変換
- 線形分離可能パターン
-
xorパターン
- ロジスティック回帰は機能しない
-
交互作用項
- accuracy *線形回帰ファミリー
階層ベイズ
-
二階差分モデル
- 今日と昨日のトレンドの差
- 昨日と一昨日のトレンドの差
季節調整(曜日)
7日周期モデル
階層ベイズモデル
カーネルSVM
LIBSVM
テイラー展開
低バリアンス手法
ランダムフォレスト
決定木
bagging
変数重要度
ノイズ
Deep Learning
ディープニューラルネットワーク
overkill
MXnet
tensorflow/playground
more interpretable, less predictive
less interpretable, more predictive
For human vs. For machine
- ヒトが意思決定をするため?システムのアウトプットを決めるため?
- for machineシステムの向こう側にいるユーザーにサービスするため、でもある ### for fuman
- interpritable(解釈可能)である方が重要
- 判断の材料を出してあげましょう
for machine
- predictiveである方が重要
- プロセスより、高い結果を出してあげましょう
- interpritableなものを出すと精度が低いって言われるよ
hybrid
- 人が見たいが精度もほしい
- さぁどうする?
- そこまで含めて機械学習で実装してあげないとね
モデリング手法の特性を踏まえたうえでの手法選択 ==
キーワード
- 情報量基準
- 交差検証
クロスバリデーション
100%あたっちゃったケース
黄色い本
多項式フィッティング
汎化
過学習
AIC
L1正則化
実務において
- 特徴量
- デモグラフィック情報
- political correctness
バランスをどう取るかがビジネス応用のカギ
i or pを学習アルゴリズムに基いて知っておくことは重要
4h = i, 4m = p