登壇
- IBM Canada Analytics Platform, Data Scientist,
- Polong Lin
背景
- 前項と同様
データサイエンス
Business problem > Data > Actinable ....
business understanding
analytic approach
data requirentments
data collection
data understanding
data preparation > data collection
modeling
evaluation
deployment
feedback > modeling
intro
what country?
英語名
- 2 pm
- 4 minutes
- BLT
- beast #### 材料
- コメ
- のり
- わさび
- 醤油
材料を元に料理を予想する
- linear regression
- logistic regression
- clustering
- decision trees
principal
.....-
ご飯がある
- 東アジアかな?
- わさびがある
- 日本料理かな?
- わさびがある
- 東アジアかな?
みたいな。
- 決定木
- ターミナルノード
recursive partitioning (催奇分割)
-
決定木
- pro
- 解釈しやい
- N/AがあってもOK
- small or large dataでもOK
- con
- overfit or underfitになることが多い
- 大きい決定木は解釈しにくい
- a decision tree stops growing when....
- 情報量がより増えない
- 分類することがない
- 予め決めたサイズに到達
- pro
Data Collection
- レシピサイトからレシピをスクレイピング
- 4つのファイルにした。
- 料理に300個位の食材が含まれているかを分析
ここから先はWorkbenchのチュートリアルにしたがって…。
- bit.ly/recipesR
- ItalianとかGermanyとかFrance/Frenchとかクリーニング必要