これはどんな資格なのか。
- アメリカのIT業界団体のデータサイエンス分野の資格。
- 「CompTIA DataX認定資格は、急速に進化するデータサイエンス分野のコンピテンシーを検証する、経験豊富なプロフェッショナルのための最高レベルのスキル開発プログラムです。」(Webサイトより引用)
なぜ取ろうと思ったのか。
ITスキル標準のISVマップ(ITSS)
スキル標準ユーザー協会からデータサイエンス領域版(ITSS+)とDX推進スキル標準版(DSS-P)のISVマップが出ていたので見てみたところ、「データサイエンス-データエンジニア」の領域でそれぞれレベル4と5の棟梁レベルに位置していた。なお、通常版のITスキル標準のISVマップ(ITSS)には入っていなかった。
参照: https://www.ssug.jp/docs/
そして、データサイエンス、DX系のマップで最高レベルであるレベル4には特定のベンダー、製品依存の資格しかなく、ベンダーニュートラルの資格が本資格しかなかった。
データサイエンティストになる為の資格紹介などの記事によく登場し、汎用性が高いと思われていたIPAのデータベーススペシャリスト試験はデータエンジニア領域ではなく、ソフトウェア領域であった。
よくよく考えれば、データベーススペシャリスト試験には数理統計学に関する設問は無いので、データサイエンス系には入らなかったのだろう。
データサイエンティスト向けではなくデータエンジニア向けの資格
よく誤解されがちなのであるが、データサイエンティストは間違いなくデータサイエンスの領域に居るが、データサイエンスの領域にはデータサイエンティスト以外の職種もいる。
DSS-PのISVマップを見るとデータサイエンティスト・プロフェッショナルではなく、データエンジニアの領域でマッピングされている。
また、ITSS+を見てもデータサイエンスではなく、データエンジニアリングの領域でマッピングされている。
問題も(そして教材も)数理統計学をバリバリの問う問題はほとんどなく、データサイエンス領域にデータエンジニアとして貢献するために必要な最低限の知識を問われていた。
なので、純粋なデータサイエンティスト・プロフェッショナルを目指している人にとっては退屈な、そしてコレジャナイ感でしかないと思う。
しかし、(絶対数は少ないと思うが)データサイエンス領域で働くデータエンジニアにとっては悪くないと思う。
ITスキル標準のISVマップ(ITSS)入りしていない資格について
やや話はそれるが、この領域に該当するのかは分からないが、
- 海外主催団体の資格であっても日本語サイトがある
- DX、データ系の資格
- ベンダーニュートラル(に近い、も含む)
という条件であればIIBAのStatistical Business Analystや、SASのCertified Statistical Business Analystもあるのだが、ISVマップに記載のあるのはCompTIA DataXしかなかった。
また、個人的にはデータサイエンティスト検定のリテラシーレベルがISVマップ入りしているのに、統計検定のDSシリーズ、データサイエンス数学ストラテジスト系が入ってこないのが大変解せない。
ISVマップ入りした点については、どこがロビー活動を頑張ったのかは分からないが、私の中で大幅な加点に繋がった。
グローバル(含む日本)に通用するか
また、これまで繰り返し書いてきたが、E資格、データサイエンティスト検定などはあくまでも日本国内でしか通用せず、ニアショアを含めた海外の方への訴求点にはならない。
しかし、日本国内で全く通用しない、知名度が無いならまだしも、どこからも評価されていないのも困る。
この点は、米国の団体の試験であって、日本のISVマップ入りしているので問題なく満たすことができた。
日本語で受験できるか
流石にこのレベルの試験になるとおおよそ日常英会話では使わない専門用語が登場する。
例えば、多重共線性を意味するmulticollinearityはなんとか理解できたとしても、個人データを追加の情報がなければ特定の個人に紐付けられないように処理する仮名化を意味するpseudonymizationなど、ネットや辞書が使えない環境で出てくると(少なくとも通訳者などではない私は)日本語では理解することは出来ても、英単語では理解できないと思う。
一回当たりが高額な試験においては、日本語で受験できるというのは大変ありがたかった。
取得を決めた結論
ということで、
- ベンダー、製品に依存しない
- 国内で通用する
- ISVマップに記載されているのは大幅な加点
- 海外でも通用する
- 領域がデータサイエンス、DX系
- データサイエンティスト向けではなくデータエンジニア向けであれば尚良い
- (出来れば)出来るだけ難しいほどよい
- ISVマップのITSSレベル4, 5であれば文句なし
- 日本語で取得できればなおよい
を満たす資格を取ろうと思っていたところに、丁度都合よく出てきたので取得を試みた。
難易度とか感想など
そもそもの難易度
公式サイトに「CompTIA DataX は、5年以上のデータサイエンスまたは同様の職務経験を目安に設計されています。」とある通り、5年程度当該領域に(真面目に)従事しているデータサイエンティスト、データエンジニアであれば特に問題となる点は無いように思う。
とは言え、筆者は偏差値50台の私大、しかも数十年前の卒業とは言え、理工学部を卒業し、IT業界に10年以上従事しているので、多少なりとも易化のバイアスはあるのかもしれない。
これらの素養が無い場合、いきなり受かるのは難しいのかもしれない。
難易度のベクトル
データサイエンス系の資格をいくつか受けてきた私の主観ではあるが、統計検定のDSシリーズ(エキスパートは受けてないので分からないが)などとは難しさのベクトルが違う。
私が感じたところを表にすると以下のようになる。
DataX | 統計検定 |
---|---|
トレンド | 古典的 |
実用的 | 学術的 |
とにかく広く浅く | 特定の領域を深く |
他者の事例がない | 他者の事例がある |
DataXでは実際の試験でもそこまで深い、例えばベルヌーイ分布の意味は聞かれるにしても、「ベルヌーイ型確率変数𝑦に対する対数尤度関数 $l(α, β)$ を導け」などのような問題は出ない。
また、統計、数学的な問題は全くないとは言わないが、ほとんど出なかった。分散分析表の見方は出るにしても、最尤推定法を用いて計算せよ的な計算を過度に要求される問題は出なかった。
また、後述するがCertMasterでも
「(数式の説明をぶっ飛ばして)Pythonでこう書こうな。するとほら、出来た」
と割り切ってくるのである意味で潔い。
しかし、データエンジニアリングからデータ分析、データサイエンス系の領域まで幅広く問われる試験だった。
と、書いたものの、それでも数理統計学をそれなりに嗜んで、日頃から実務でデータエンジニアリングを行っている諸氏であればそう苦労することは無いと思う。
知らない領域を次節で述べる教材などで調べて知見を深めておけば落ちることはまずない。
他者の事例について
統計検定の1級、そして参考書が未だに出てこないDSエキスパートであっても、ネット上を検索すれば多少は他者の受験事例が出てきて何となくレベル感や試験の方向性などが分かる。
しかし、
- 米国のIT団体主催
- 受験費用が高額
- 加えて更新料もある
- 数式が出てくるとデータサイエンス領域を目指すことを諦める人が多い
- 更にそこから高度に行こうとする人の絶対数が当然ながら他の分野と比較して少なくなる
- 仮にそのレベルに行こうとする場合、DS、DXの領域ではKaggleやそれこそ統計検定などで代替が効く
- もっと言えば資格などではなく、経歴(含む:学部学歴、研究、論文)でどうにかなってしまう
ということから、このような資格をわざわざ取ろうとする人はおそらくかなり限定されている。
よって、少なとも私が受検しようとしたタイミングでは各種SNS上、「DataXを取りたいと思っています」と発言している人は見かけられたにもかかわらず、実際に取得した人を見かけることが出来なかった。
正直、この分野において自身の能力、学歴、経歴から考えるに私より優れている人の方が多いはずなのだが、待てど暮らせど合格体験記なるものがネット上に観測されなかった。
私ごときでファーストペンギン🐧になるのはあまりにもおこがましいのだが、そうすることでそれもまた誰かの一助となればいいと思い行動に移した。
勉強方法
教材
教材は以下の2点を使った。
- CompTIA DataX Study Guide: Exam DY0-001 (Sybex Study Guide) (English Edition)
-
https://www.amazon.co.jp/CompTIA-DataX-Study-Guide-DY0-001/dp/1394238983
- AmazonでKindle版を買った。
- Sybex本はwileyのサイト問題を集めたアプリ(内容は章末問題を集めたものだが)が便利だったのでそちらも活用されたい。
-
https://www.amazon.co.jp/CompTIA-DataX-Study-Guide-DY0-001/dp/1394238983
- DataX CertMaster Perform
-
https://jp-store.comptia.org/p/DAX-001-CPEI-24-C
- DataX CertMaster Labs という安いやつもあるが、買わなかった。
おそらく、Perform で提供されているJupyter Notebookの部分を切り出したものが収録されているのだろう。
そして、私が受けた時はJupyter Notebookを使用するようなプログラムに関するパフォーマンスベーステストは出力されなかった。
- DataX CertMaster Labs という安いやつもあるが、買わなかった。
-
https://jp-store.comptia.org/p/DAX-001-CPEI-24-C
だが、両方ともあまり役に立たなかった。もちろん、章末問題などで雰囲気を知ることは出来るが、「本番の試験で役に立った」と言えるかというと、そうでもない。
IPA、情報処理技術者試験の午前に代表されるように過去問を丸暗記すれば、その問題がそっくりそのまま出てくる、みたいなことはない。
少なくとも私が受けた時は同じ問題が1問として出てこなかった。
巻末および付録の用語集に出てくる単語について詳しく知っていることの方が重要かもしれない。
必要な学習の粒度
前段で巻末および付録の用語集に出てくる単語について詳しく知っていることが重要、と述べた。
本節にて、では実際にどの程度詳しく知る必要があるかという目安としてブライアスコアを取り上げる。
- ブライアスコア(Brier Score)は確率予測の精度を評価するための指標
と言うのだけではダメで、それに加えて
- ブライアスコアは、予測確率と実際の結果を比較することで、確率予測の精度を評価する。
- イベント発生までの時間設定では、打ち切りと予測期間を考慮して調整できるため、生存分析や感染リスクモデリングに最適。
- 生存解析では、統合ブライアスコア (IBS) が、様々な時点における予測精度を要約するためによく使用される。これは、打ち切り確率の逆重み (IPCW) を使用して計算される。
みたいな感じで知っておく必要があったように思う。ただし、計算式
Brier Score = \frac{1}{N} \sum_{i=1}^{N} (f_i – o_i)^2
は知らなくてもいいし、実際に計算できる必要もない。
Pythonにぶち込んで値が出ることを分かっていれば、それを使えるという事を知っていれば問題ない、という割り切りスタンス。(この試験が)
誤記、誤植など
Cert Performは執筆次点での唯一の公式の学習教材であるにも関わらず、手放しに推奨することができないのは10万円という高額な教材のくせに非常に誤記、誤植、誤情報の類が無視できないレベルに多い。
一例として、執筆開始時点(2025年7月26日)で本国アメリカ版のサイトにサンプル問題が公開されていたがこちらも誤植や誤記がある。正しくは3桁区切りで , (カンマ)が打たれるべきだし、Price Rangeが200,001から500,000まで記載の範囲区切りもおかしく、とても正当な校正を受けた資料とは言い難い。
DataX (V1) Practice Questions | CompTIA Certifications https://www.comptia.org/en-us/certifications/datax/practice-questions/
なお、上記のサンプル問題で難易度を図ろうとすると足元をすくわれる可能性が高い。実際の問題ではもう少し深いところを問われたのでその点は留意されたい。
Cert Performもこれに類する誤植や誤記が非常に多く、ハッキリ言って10万円近い教材のものとは思えないほど質が低い。
あまりにも頭にきたので、重箱の隅をつつく陰湿な日本人を代表として問い合わせフォームから完全に誤りであるものについては報告をしたが、それであっても10件以上はあったように思う。
なお、直す気があるのかないのか分からない微妙な返事が一応は返ってくる。
日本の資格試験であっても誤植だらけ
話が脇道にそれるが、日本国内でのみ展開されているデータサイエンティスト系の資格についても教本に多数の、それも無視できないレベルの数で、誤りがあったことを思い出した。
- 【正誤情報】『データサイエンティスト検定[リテラシーレベル] 最強の合格テキスト』 | SBクリエイティブ https://www.sbcr.jp/support/4815617874/
- データサイエンス数学ストラテジスト [上級] 公式問題集 書籍に関するお詫びと訂正 https://www.su-gaku.net/sugaku/wp-content/themes/su-gaku/template-parts/page-math-ds/support-component/pdf/book_teisei_mdss_high.pdf
なので、日本人も偉そうなことは言えないかもしれない。
高難易度になればなるほど誤植が多いし直らない話
更に話が脇道にそれるが、大学時代に1万円程度する教科書を読んでも全く理解出来なかったので、教授へ質問しに行ったら「あぁ、これはこの本が間違っていますね。正しくは~」と講義をされたことを思い出された。
- 大学の教科書って誤植や誤字脱字が多くないですか? - Yahoo!知恵袋 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10270243975
- 大学の授業で教科書の言ってることが理解できず先生に質問したら「これは教科書が間違っている」→大学ではよくあることらしい - Togetter [トゥギャッター] https://togetter.com/li/1889559
- 大学の教科書って誤植や誤字脱字が多くないですか? - 教えて!goo https://oshiete.goo.ne.jp/qa/13207559.html
よって、高度になればなるほど検閲する人も居なければ、「それほどの高みを目指すのであれば自分で誤りを見つけて直しておけ」というある種の書き手側の怠慢から来る傲慢さから、誤字、誤記、誤情報は修正されずに(そして仮に直す意思があっても費用対効果が全くないので)残り続けるのだろう。
誤植、誤記、誤情報に対して
教材や教科書に書かれていることを無条件に信じてしまう人は基本的に向かない。
自分がこれまで培って経験などから「この記述はおかしい、論理的に整合性が取れていない」と思ったら、調べて正誤を自分の中で消化できることが求められる。
勉強方法(もう一度受け直すなら)
よって、今もう一度勉強し直して受け直すのであれば、まずSybex本を買って問題のある程度の出題形式、雰囲気をつかむ。
その上で、米国の公式サイト(英語)よりexam objectives、つまり出題範囲に書かれている単語すべてについてChatGPTやGeminiなどでひたすらに壁打ち問題を作成して、学習すると思う。
なお、これは繰り返しになるが、これは普段からIT業界にてデータに関する業務に従事している筆者の感覚なので、もし、そのような立場に置かれていない人においてはもう少し別の教材や資格試験を経由してからの方がよいかもしれない。
Tips
割引券
ここまでの受験費用が高額になると流石に少し節約したいという思いが出てくると思う。
米国のサイトで気まぐれにCompTIA Assistant(右下によくあるチャット)が10%OFFのクーポンコードを発行してくれるので、そちらを利用されたい。(日本のサイト、ストアでもこのコードは有効だった)
なお、私が試した時はリテイクバウチャー付のVoucher with free Retakeには使えなかったが、リテイクなしのバウチャーチケットでは使えたし、学習教材についても漏れなく使えた。
試験時間について
試験時間が165分とあるが、実際はこんなにかからない。
パフォーマンスベース問題があるとはいえ、大半は4択の選択問題なので70, 80分ほどで解き終わった。
これも私がこの分野においてある程度の実務経験があるからで、そうでない場合はもう少しかかるのかもしれない。
結果
めでたく合格した。
全体的に否定的な口調で書いてしまったが、データサイエンス領域で活躍するデータエンジニア向けの資格としてはそう悪くないと思うので、何かこの領域で取得を検討するのであれば選択肢に加えてみる価値はあると思う。
個人的にはこういった海外系の資格で、ITSSレベル4を、しかも自分が実務で経験を積んだデータエンジニアリングの分野で取得することが出来たので今のところ満足度はそれなりに高い。
しかし、惜しむらくは、データ分野ではサイバーセキュリティやインフラストラクチャーの分野と異なり、Stackable Certification https://www.comptia.jp/certif/comptia_stackable_certification/ がないので、やる気を途中で失ってしまいData+を失効させてしまったことぐらいか。