データイサイエンス リテラシー試験を受けてきました。
目的として、試験合格ではなく
スコア値を確認したところ、
- データサイエンス 89.1%
- データエンジニアリング 89.2%
- ビジネス 84.6%
でスコア的には、基準を満たしていると考えられるでしょう。
ただ、目的は試験を通じて「足りていない部分」と「職務に求められる最低限の知識エリア」を習得することですので、あらためてできなかった部分の内容を整理してきたいと思います。
データサイエンス領域
トランスダクティブ学習
概要
トランスダクティブ学習は、学習時に訓練データだけでなく、ラベルのないテストデータの分布も考慮に入れる手法です。
関連項目
半教師あり学習、転移学習、ブースティング
リフト値
概要
リフト値は、ある商品Aの購入が商品Bの購入をどれだけ促進しているかを示す指標で、マーケットバスケット分析で使用されます。
関連項目
支持度、確信度、アソシエーションルール
決定木(深さ、外れ値の影響など)
概要
決定木は、データを条件に基づいて分割し、分類や回帰を行う手法です。木の深さはモデルの複雑さを示し、深すぎると過学習のリスクがあります。外れ値は分割基準に影響を与え、モデルの精度を低下させる可能性があります。
関連項目: ランダムフォレスト、ブースティング、剪定
アソシエーション分析
概要: アソシエーション分析は、データ中の項目間の関連性を見つける手法で、マーケットバスケット分析などで使用されます。
関連項目
Aprioriアルゴリズム、FP-Growthアルゴリズム、アソシエーションルール
エンジニアリング領域
ネットワーク分析(ノードとエッジ)
概要
ネットワーク分析は、ノード(点)とエッジ(線)で構成されるネットワーク構造を解析し、要素間の関係性や構造を明らかにする手法です。
関連項目
グラフ理論、ソーシャルネットワーク分析、クラスタリング
大域説明、局所説明
概要
モデルの予測結果に対して、その理由や要因を個別に説明する手法です。
関連項目
SHAP値、LIME、解釈可能な機械学習
ビジネス領域
カバレッジ(条件網羅)
概要
カバレッジは、特定の条件やルールがデータ全体の中でどれだけの割合を占めているかを示す指標です。
関連項目
支持度、確信度、リフト値
Society5.0
人類の進化を「社会の発展段階」として以下のように分類しています。
-
狩猟社会(Society 1.0)
人々は狩猟や採集を行い、自然の中で生活する社会。 -
農耕社会(Society 2.0)
農業が中心となり、定住生活を営む社会。 -
工業社会(Society 3.0)
工業化が進み、大量生産が可能になった社会。 -
情報社会(Society 4.0)
IT技術の発展により情報が共有・活用される社会。 -
超スマート社会(Society 5.0)
サイバー空間(仮想空間)とフィジカル空間(現実空間)を高度に融合させることで、新たな価値を創造する社会。
まとめ
半教師あり学習: ラベル付きデータとラベルなしデータを組み合わせて学習する手法。
転移学習: 既存のモデルや知識を新たなタスクに適用する学習手法。
ブースティング: 複数の弱い学習器を組み合わせて強い学習器を作る手法。
支持度・確信度: アソシエーションルールの評価指標で、ルールの有用性を測る。
ランダムフォレスト: 多数の決定木を組み合わせて予測精度を高める手法。
剪定: 決定木の複雑さを制御し、過学習を防ぐための手法。
グラフ理論: ネットワーク構造を数学的に解析する理論。
ソーシャルネットワーク分析: 社会的なネットワーク構造を解析する手法。
クラスタリング: データを類似性に基づいてグループ化する手法。
SHAP値・LIME: モデルの予測を個別に説明するための手法。
解釈可能な機械学習: モデルの予測結果を人間が理解できる形で説明する研究分野