実務でResearcherとして
- 実際にやること
- 必要なスキル
- 対応する参考本
の独り言メモ.
*増えたら足してく.
【前提】
下記0・2はSQL(BigQuery),1・3・4・5はPythonで行う場合.
0.ETL
やること
提供されたデータをBigQueryに入れて使える状態にする
1.データ分析(データの可視化)
やること
- データを知る
- 最終的な目的に対して,それを達成できるようなデータであるか(期待するデータであるか)
- 十分な量のデータがあるか
- 欠陥値がないか
- 外れ値がないか
- どんな特徴量が抽出できるか
- どうやって特徴量を抽出するか
- データが示す意図はなにか
必要なスキル
- データのプロット力と考察力
- なんのグラフでプロットするか
- グラフから何がわかるか
- カラムの必要不必要さを見極める力
- 目的変数に対してどのカラムが必要で,どのカラムが不必要で,何のカラムを追加すればよいか
対応本
-
Pythonデータサイエンスハンドブック
-
Pythonによるデータ分析入門
2.データ前処理
やること
- データを学習できる状態にする
- 欠陥値の処理
- 外れ値の処理
- ダミー変数化
- ベクトル化
- 特徴量の抽出
必要なスキル
- SQLの実装力
- なにとなにから,どの特徴量が抽出できるかの整理とその実装力
対応本
- 前処理大前
- ビックデータ分析・活用のためのSQLレシピ
3.モデリング
やること
- データの読み込み
- モデル実装
- モデルの選択選定
- パラメータの推定
- アルゴリズムの実装
- 結果の表示
必要なスキル
- Pythonでの実装力
- 機械学習の知識
- 活用ライブラリの知識
- その他アルゴリズムの知識
対応本
- Kaggleで勝つデータ分析の技術
- Pythonデータサイエンスハンドブック
- Pythonではじめる機械学習
4.評価
やること
- 精度評価
- 考察
必要なスキル
- recall-precision等の評価関数の知識と活用力
- 結果のプロット力
- 条件別(カテゴリ別)の結果のプロット力
- 結果とその精度から何がわかるか
対応本
- Kaggleで勝つデータ分析の技術
- Pythonではじめる機械学習