こんにちは。先日、データサイエンティスト検定を受験してきたので、試験の概要、勉強法、試験当日の流れについて紹介したいと思います。
結果
正式な合否はまだですが、94%取得できたので大丈夫でしょう。ビジネス100%は予想外。
- データサイエンス 91.1%
- データエンジニアリング 96%
- ビジネス 100%
私のスペック
- 本業はクラウドのインフラエンジニア。主にAWSを利用しています。
- AWS認定11冠(SAP on AWSのみ未取得)
- Google Cloud Professional2種(PCA,PDE)
- アジャイル開発経験あり。
- データエンジニアリング部分は基本知識で行ける。
- 数学・統計学
- 文系(経済学専攻)ですが、金融工学を選考していたので、統計学は専門でした。
- 高校数学はほぼ数IIBまで。行列は大学でのみ。高校でやってほしかった。
- 指数を減らして係数に掛ける微分しか知らない。三角関数とか対数とかネイピア数の入った微分は知らない。
- 機械学習
- AWS Certified Machine Learning - Specialty も取得済みのため、基本的な機械学習の知識はあり。
- 社内での研修受講により、研修レベルの実装経験あり。
- ビジネス・法律
- 雰囲気。
データサイエンティスト検定とは?
『データサイエンティスト検定™ リテラシーレベル』(略称:DS検定® ★)とは、アシスタント・データサイエンティスト(見習いレベル:★)と数理・データサイエンス教育強化拠点コンソーシアムが公開している数理・データサイエンス・AI(リテラシーレベル)におけるモデルカリキュラムを総合し、実務能力と知識を有することを証明する試験です。
このように、データサイエンスのスキルを認定するための試験で、数学、統計学、機械学習、ビジネス、法律などの幅広い知識を問われます。
スキル一覧
上記で配布されているスキルチェックリストのスキルレベル★が試験範囲となります。
これに沿った参考書があるので、こちらの一覧を眺めるよりは下記参考書を読んだ方が良いです。
利用した参考書
最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2版
上記スキル一覧に則って、各スキル要素の解説がされています。Amazonの評価そこまで良くないですが、しっかり読み込むとこれに色付きで書いてある要素がなかなか出ましたので、一通り読むことをおすすめします。
巻末に問題集90問に加え、読者限定で追加の90問も配布されているため、どちらも解いた方が良いです。
徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応 徹底攻略シリーズ
こちらは問題集。以下の分野別に学習できます。最後には本試験と同じ90問あります。
- データサイエンス力
- 数理統計 26問
- 機械学習 36問
- データエンジニアリング力
- 知識 15問
- SQL 16問
- ビジネス力
- プロジェクト推進 7問
- 法律・倫理 8問
- モデルカリキュラム 11問
- 総仕上げ問題 90問
試験申し込み
- 試験期間
- 今年度は以下の3回。
- 第4回:2023年6月3日(土)~2023年6月25日(日)
- 第5回:2023年11月11日(土)~2023年12月3日(日)
- 第6回:2024年3月上旬~下旬
- 申し込みは第4回の場合は4/17-5/22まででした。結構ギリギリまで申し込めます。
- 試験申込時にテストセンターを決める必要あり。
- 土日全然空いてなかったので平日午前中に設定。早く申し込めば空いてるかも。
- 今年度は以下の3回。
- 受験料
- 一般10,000円
- 学生5,000円
当日の流れ
- 試験はテストセンターによるCBT方式。パソコンで受験。
- 遅刻厳禁。メールに以下の記載あり。「受験できません。遅刻の連絡不要」とは冷酷。
■来場時間
・受験時刻の30~5分前に会場にお越しください。
・5分前までに会場にお越しでない場合、受験できません。遅刻の連絡は不要です。
・30分前よりも前に会場にお越しの場合、会場が開いてない場合や入場をお断りする場合がありますので、ご了承ください。
- 計算用の紙1枚渡されました。
- (私の受けたセンターは)耳栓が机においてありました。使い捨て。使いませんでしたが。
- エアコン寒かった。
全体所感
- 問題集もその傾向がありますが、適切でないものを選べという問題が多いです。文章の最後はよく確認しましょう。
- 本番の見直しで1問逆に解いていたことに気づいた。危ない。
- 時間は80分くらい使いました。
- 60分ほどで解き、20分くらいで見直し。
- 画面上に電卓があるのを終盤まで気づかなかった。計算に使えるようです。
勉強法
- 本は電子版(PDF)を技術評論社のサイトから購入し、iPadのGoodNotes5に入れて学習。
- Kindleは参照には良いのですが、書き込みができないので微妙。セールであまりにも安ければ妥協して買いますが。
- 参考書系の書籍はPDF販売がありがたい。
- Notionで学習実績管理:
- 学習実績の記録
- 実績を書くことで次やるべきことを明確に。
- 勉強時間が積み上がることでモチベーションアップにもつながる。
- 勉強メモの作成
- 下記に公開していますが、分からなかったところをメモ。
- 学習実績の記録
- 学習時間はトータル12時間ほど。
分野別勉強メモ
個人的にあまり知らなかったor忘れてた分野を記載。
数理統計
- 様々な微分の公式を覚える。
https://ja.wikipedia.org/wiki/微分#初等函数に関する公式
多分三角関数以外で十分。上から5個 - 偏微分(xでのみの微分とか)の方法
- 該当の文字がなければ数字と一緒。
- ベクトルの概念・計算
- 和
- スカラー倍
- ユークリッドノルム
- 内積
- 行列
- 逆行列
- 転置行列
- 行列式
- 行列積
- 確率
- 条件付き確率
- 確率分布
- 正規分布
- ベルヌーイ分布
- 二項分布
- 分布の歪み
- 四分位数
- P値
- 尺度
- 質的変数
- 名義尺度:郵便番号や氏名など。
- 順序尺度:順位など、間隔や比率に意味がないもの。
- 量的変数
- 間隔尺度:目盛りが等間隔。点数、気温など
- 比例尺度:間隔に加え、比率にも意味があるもの。身長、値段。
- 質的変数
機械学習
- 分類・回帰・ディープラーニングのそれぞれの代表的な手法
- 性能評価指標
- MAE:Mean Absolute Error 平均絶対誤差
- MSE:Mean Square Error 平均二乗誤差
- RMSE:Root Mean Square Error 平均平方二乗誤差
- MSLE: Mean Squared Logarithmic Error) 平均二乗対数誤差
- MAPE: Mean Absolute Percentage Error 平均絶対誤差率
- AUC(Area Under the Curve):ROC曲線の下の面積
- Precision(適合率):陽性と予測されたうち、陽性であった割合。TP/(TP+FP)
- Recall(再現率):実際に陽性のもののうち、陽性であると予測された割合 TP/(TP+FN)
- F1-score:(2PQ)/(P+Q)
- 交差エントロピー誤差:分類モデルで用いられる誤差。
- 深層学習
- YOLO(You Only Look Once):物体検出の手法
- U-net:画像内のオブジェクトを背景から切り出す深層学習を用いたセマンティックセグメンテーションの手法
- シグモイド関数
- 入力が大きくなるに連れてなめらかに0から1に変化する関数
- ロジスティック回帰で利用
- 実験計画法
- Fisherの3原則
- 局所管理化
- 反復
- 無作為化
- Fisherの3原則
- 大域的な説明:人間にとって解釈可能なモデルで再現
- 局所的な説明:モデルの予測プロセスを説明
- 形態素解析のツール
- MeCab
- JUMAN
- ChaSen
- 係り受け解析のツール
- CaboCha
- KNP
- GiNZA
- GLUEで検証可能な内容
データエンジニアリング力
- データベースが第何正規形か
- 第1正規形:繰り返し項目なし
- 第2正規形:部分関数従属なし
- 第3正規形:推移的関数従属なし
- SQLのHAVING句
- テーブル用語
- 選択:行を取得
- 射影:列を取得
- HadoopのRDD(Resilient Distribution Dataset)
- メモリ上の分散処理の仕組み
- マルウェアの種類
- ウイルス:プログラムを改ざんして自己増殖
- ロジックボム:特定の条件を満たした際に攻撃
- トロイの木馬:無害なファイルを装って侵入し損害を与える。
- ワーム:プログラムに寄生せず、自己増殖
ビジネス力
- 5フォース分析
- 業界内での競争
- 業界への新規参入者
- 代替品の存在
- 買い手(顧客)の交渉力
- 売り手(サプライヤー)の交渉力
上記は、いずれも自社をとりまく外部からの脅威であり、収益に直結する要素
- AIDMA
- 認知(Attention)
- 関心(Interest)
- 欲求(Desire)
- 記憶(Memory)
- 行動(Action)
の5つに分類し、消費者購入のモチベーションがどこにあるかを探る。
- AISAS
- AIDMAにインターネット上での購買行動を追加したモデル。検索と共有が異なる。
- 認知(Attention)
- 関心(Interest)
- 検索(Search)
- 記憶(Memory)
- 共有(Share)
- CVCA
- Customer Value Chain Analysys 顧客価値連鎖分析
- ステークホルダーをすべて挙げ、ステークホルダー間の金銭、商品、情報の流れを図で可視化
- CSF(Critical Success Factor) 主要な成功要因
- SWOT分析に基づいて設定される。
法律・倫理
- オプトイン
- 許諾する意思を示す行為
- 許可されてからメール送信
- オプトアウト
- 許諾しない意思を示す行為
- メールを送り、不要な場合は拒否
- 個人情報のオプトアウト制度
- 本人の事前の同意がなくても、本人が異議を留めるまで個人データを第三者に提供できる制度
- 匿名加工情報
- 復元不可。同意不要で事業者間連携可能
- 仮名加工情報
- 照合すれば復元可能。事業者関連系には同意必要。目的外使用も可能。
おわりに
私の経歴的に非常に相性の良い試験でした。来月はこの勢いでG検定の取得及びAWSのMachine Learning Specialtyの再取得にチャレンジしようと思います。