データサイエンティストのスキルレベル ~グルーピング~
はじめに
標題の通り、どんなスキルレベルがあるのか確認
https://www.datascientist.or.jp/common/docs/skillcheck.pdf
統計数理基礎;ac
https://qiita.com/iwasaki_kenichi/items/25d55bcd872121b1015c
予測;
https://qiita.com/iwasaki_kenichi/items/3c2755e0b29669c11fbe
検定/判断;
https://qiita.com/iwasaki_kenichi/items/4ec59977c09f77581b8b
グルーピング
|No|スキルカテゴリ|スキルレベル|サブカテゴリ|データサイエンス力:チェック項目|必須スキル|
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|1 |グルーピング| ★ | グルーピング| 教師あり分類と教師なし分類の違いを説明できる|◯|
|2 |グルーピング| ★ | グルーピング| 判別分析とクラスター分析の概要や使い方を説明できる| |
|3 |グルーピング| ★ | グルーピング| 階層クラスター分析と非階層クラスタ-分析の違いを理解している| |
|4 |グルーピング| ★ | グルーピング| クラスター分析のデンドログラムの見方が分かり、適切に解釈できる| |
|5 |グルーピング| ★★ | グルーピング| 非階層クラスター分析において、分析目的に合致したクラスター数を決定することができる| |
|6 |グルーピング| ★★ | グルーピング| 階層クラスター分析における代表的なクラスター間距離(群平均法、Ward法、最長一致法など)の概念を理解し、分析内容に応じて最適な手法を選択して、分析ができる| |
|7 |グルーピング| ★★ | グルーピング| 各種距離関数(ユークリッド距離、マンハッタン距離、cos類似度など)を理解し、分析内容に応じて、適切なものを選択し分析ができる| |
|8 |グルーピング| ★★ | グルーピング| 分析内容に応じて、線形か非線形を使い分けた判別分析ができる| |
|9 |グルーピング| ★★ | グルーピング| k-means法は局所最適解であるため初期値問題があることを理解し、適切な初期値を設定して分析を行える |◯|
|10 |グルーピング| ★★★| グルーピング| 距離の公理を知っており、距離の公理を満たさない場合([1-cos類似度]など)のクラスター分析を適切に行える| |
|11 |グルーピング| ★★★| グルーピング| k-meansの派生手法(x-means、k-means++、ファジィk-meansなど)を理解し、分析内容に応じた適切な手法を選択して、分析ができる| |
|12 |グルーピング| ★★★| グルーピング| k-meansとカーネルk-means(非線形クラスタリング)、スペクトラルクラスタリングの違いを理解し、分析内容に応じて、適切な手法を選択して、分析ができる| |
|13 |グルーピング| ★★★| グルーピング| 自己組織化マップ(SOM)、Affinity Propagation、混合分布モデル、ディリクレ過程混合モデルを理解し、分析内容に応じて適切な手法を選択して、分析ができる| |
おわりに
教師あり分類と教師なし分類の違いを説明できるが必須スキルなんですね。確かに、関係する書籍を読むと大体教師ありと教師なしについて説明しているイメージがあります。
クラスター分析のことを触れている初心者向けの本はあまり見たことがないかもしれません。(そんなに本を読んでいないのでアレですが)
クラスター分析や、各距離関数については、下記のslideshareや、Albertさんの解説がわかりやすそうです。
分析に応じて、線形か非線形かを使い分けた判別分析ができる。という項目は気になりました。
解析する人たちはどのように使い分けるのでしょうか。勘やノウハウなのか、それとも決まっている法則のようなものがあるのか...。
k-means法は局所最適解であるため初期値問題があることを理解し、適切な初期値を設定して分析を行えるが、必須スキルとしているのは気になりました。
この項目を必須にするということは、k-means法は現場でよく使われるということでしょうか。よく使われるが、適切な初期値を設定して分析しないと痛い目を見ることがあるので、
必須としているのでしょうか。
k-meansに派生手法があるのですね。(x-means、k-means++、ファジィk-meansなど)初耳です。
さすがに★★★となると、聞いたことのある単語だな。というレベルでした。
まだまだ勉強しなければ。