LoginSignup
12
15

More than 3 years have passed since last update.

【Kaggle・E資格もあるよ】データサイエンティストのスキルセットまとめ

Last updated at Posted at 2020-02-29

データサイエンティスト向けのスキルセットを自分なりの観点でまとめてみました。
※研究者やインフラなどのAIパッケージ開発向けのスキルセットは除いています。

目次

  1. データサイエンティスト協会のスキルチェックリストについて
  2. 本記事で紹介するスキルセット
    1. Kaggle,AIパッケージ製品について
    2. ディープラーニング協会E資格や統計検定等の資格について
  3. 完全初心者が初級者になるためにまず何をすべきか

1. データサイエンティスト協会のスキルチェックリストについて

データサイエンティストのスキルセットで最も有名なのが、
おそらくデータサイエンティスト協会のスキルチェックリストだと思います。

2020/02/29時点での最新のスキルチェックリストは以下です。
https://www.datascientist.or.jp/common/docs/skillcheck_ver3.00.pdf

サブカテゴリレベルで見ると、ほとんど抜け漏れはないのではないかと思えます。

また、以下のリンクからスキルチェックが可能です。
https://check.datascientist.or.jp/skillcheck-full/selectLevelView

ただ、私の身近にあるもので触れられていないものがいくつかありました。

- Kaggle
- AIパッケージ製品
- ディープラーニング協会E資格や統計検定等の資格

これらについて触れた上で、スキルセットを少し簡易化してまとめました。

2. 本記事で紹介するスキルセット

基本的には、LeapMindBlogに記載のあった
ディープラーニング/機械学習のビジネスフレームワーク「5D」に沿って初級~上級に分け、
上部にデータサイエンティスト協会が以前出していたスキルセットを加えました。

20200229_スキルセット.png

自分なりの意見ですが、ざっくりこんな感じでまとめられるのではないかと思います。
Define,Dataについては、機械学習という手段が生まれただけであって昔からあまり変わらない気はしますが、
Develop,Deploy,Driveについては日々進化している領域なので、手段がどんどんアップデートされていくと思います。
そう考えると、ビジネスに寄ったスキルを身に着けておけば
今後テクノロジーが進化しても、それをある程度キャッチアップさえしておけば生きていけるのではないかと感じます。

また、私はこのまとめを頭に入れつつ

  • 自分がどの部分を伸ばしたいか
  • 伸ばすためには何をすべきか
  • そのための弊害は何か

などを念頭に置いて日々の業務の意味付けをしています。

2-1. Kaggle,AIパッケージ製品について

スキルセットの中で、

  • Kaggle
  • AIパッケージ製品の適用

Developに位置づけました。

機械学習を正しく利用し、高い精度を目指すスキルを身につけるのであれば
やはりKaggleで腕を磨くのが良いのではないかと思っています。

一方、AIパッケージ製品の適用は技術的には初級レベルです。
ボタンポチポチすれば誰でも出来ます。
また本来、データ分析は業務内容やデータの意味、機械学習手法の特徴等を考慮して進めるべきですが、
AIパッケージ製品の適用だけではそれは難しいです。

ただ、AIパッケージ製品にもいいところはあり、
それは汎用性(横展開のしやすさ)です。

20200229_汎用性と精度.png

Kaggleでは、ある特定の課題に特化して予測精度を高めます。
それはつまり、他の課題には適用しづらいことを意味します。

例えば、エンジンの故障予知についてKagglerが一生懸命頑張り、非常に高い精度が出せたとします。
それを聞いた品質管理部門が、
「どうやらエンジンの故障予知がAIで上手くいったらしい。じゃあギヤの故障予知にも横展開しよう。」
と考えます。
しかし、それをKagglerにお願いすると、
「ギヤ用に一から作るので同じ時間・金額がかかります。」
となってしまいます。
「え、エンジンが出来たんだからギヤも出来るでしょ。精度はいいからとりあえず適用したい。」と言うと、
「いや、適用できません。データの構造が違うので一から作るしかないです。」と言うことになります。
データサイエンティスト目線からすると当たり前なのですが、
ユーザ目線からするとこれは困ります。

このような場合、精度は落ちてもAIパッケージの方が横展開しやすいです。
例えば、あるAIベンダーが「AI故障予知パッケージ作りました。PoCしませんか。」と提案し、無事高い精度が出ました。
すると同様に「どうやらエンジンの故障予知がAIで上手くいったらしい。じゃあギヤの故障予知にも横展開しよう。」と考えます。
そうなった場合、「同じ精度が出る保証はできませんが、やってみましょう。」がやりやすいです。

もちろん課題ごとにKagglerやそこそこAI詳しい人が一生懸命モデル構築するのが一番いいのですが、
典型的な日系大企業の多くは技術者不足なのでそれは難しいです。
なので、後々の横展開のしやすさを考慮してAIパッケージ製品の適用にも優位性はあると思います。

2-2. ディープラーニング協会E資格や統計検定等の資格について

  • ディープラーニング協会E資格や統計検定等の資格

については、スキルセットには入れませんでした。
資格を取ったからといって、何かが出来るようになるわけではないからです。

ただ当然、資格が全く無意味とは思いません。
例えば、E資格を受験することは、
Developの中級から上級にレベルアップするのに必要な知識の一部を獲得する上での目標になると考えています。

20200229_資格.png

簡単に言うと、資格取得は勉強するためのモチベーションだと私は捉えています。(そういう人が多いのではなかろうか)
追加のメリットとして、客観的に自分を見られた場合の一定の能力の保証にはなると思います。

3. 完全初心者が初級者になるためにまず何をすべきか

これまで、KaggleやE資格など完全初心者には入りづらい分野について記載してきました。
ここでは、完全初心者が初級者になるためにまず何をすべきかについて記載していきたいと思います。

大きく3つあります。

  • 分析用データを入手する
  • SONYのPrediction Oneを動かしてみる
  • AIの入門書を読む

まずは、Kaggleのタイタニックコンペのページからデータを入手してください。
無料会員登録だけは必要になりますが、その後再度リンクに飛び、
以下の2つのcsvをダウンロードします。
20200229_titanic.png

その後、SONYのPrediction Oneをダウンロードしてください。
無料で使えるAIパッケージ製品です。

ダウンロードしたPrediction Oneを使い、
タイタニックコンペのデータの、Survivedを予測させます。
このあたりの操作方法については、Prediction Oneのページをご確認ください。
簡単にできるはずです。

一応これで、AIを使うことが出来ました。

最後に、AIの入門書を読んでください。
内容は本屋に行ってご自身に合う本を選んで頂きたいですが、
一度実際にAIを使っているのでかなり理解しやすいはずです。
これで完全初心者から初級者への第一歩を踏み出せているのではないかと思います。

最後に

全体的に長めになってしまい、かつ色んなことを書いたので1つの記事としてまとまってない感が出てしまいました。
ここまで読んで頂き、ありがとうございました。

参考にしたサイト

データサイエンティスト協会 スキルチェックリスト
データサイエンティスト協会 スキルチェック
Kaggle
一般社団法人日本ディープラーニング協会
LeapMindBlog
Prediction One

12
15
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
15