LoginSignup
1
2

More than 3 years have passed since last update.

Researcher(Data Scientist)の実務と必要なスキル

Posted at

実務でResearcherとして

  • 実際にやること
  • 必要なスキル
  • 対応する参考本

の独り言メモ.
*増えたら足してく.

【前提】
下記0・2はSQL(BigQuery),1・3・4・5はPythonで行う場合.

0.ETL

やること

提供されたデータをBigQueryに入れて使える状態にする

1.データ分析(データの可視化)

やること

  • データを知る
    • 最終的な目的に対して,それを達成できるようなデータであるか(期待するデータであるか)
    • 十分な量のデータがあるか
    • 欠陥値がないか
    • 外れ値がないか
    • どんな特徴量が抽出できるか
    • どうやって特徴量を抽出するか
    • データが示す意図はなにか

必要なスキル

  • データのプロット力と考察力
    • なんのグラフでプロットするか
    • グラフから何がわかるか
  • カラムの必要不必要さを見極める力
    • 目的変数に対してどのカラムが必要で,どのカラムが不必要で,何のカラムを追加すればよいか

対応本

2.データ前処理

やること

  • データを学習できる状態にする
    • 欠陥値の処理
    • 外れ値の処理
    • ダミー変数化
    • ベクトル化
    • 特徴量の抽出

必要なスキル

  • SQLの実装力
  • なにとなにから,どの特徴量が抽出できるかの整理とその実装力

対応本

3.モデリング

やること

  1. データの読み込み
  2. モデル実装
    • モデルの選択選定
    • パラメータの推定
    • アルゴリズムの実装
  3. 結果の表示

必要なスキル

  • Pythonでの実装力
  • 機械学習の知識
  • 活用ライブラリの知識
  • その他アルゴリズムの知識

対応本

4.評価

やること

  • 精度評価
  • 考察

必要なスキル

  • recall-precision等の評価関数の知識と活用力
  • 結果のプロット力
  • 条件別(カテゴリ別)の結果のプロット力
  • 結果とその精度から何がわかるか

対応本

  • Kaggleで勝つデータ分析の技術
  • Pythonではじめる機械学習
1
2
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2