第7回データサイエンティスト検定（2024年6月実施）を受けてみました。問題集を1冊だけやって、足りないところをChatGPT(GPT-4o)に問題を作ってもらって苦手を克服できたので、備忘録としてその方法を書いておきます。誰かの参考になれば嬉しいです。

自己紹介

機械学習の勉強をはじめて2年ほど。
G検定取得(2023年8月)
基礎情報技術者試験合格(2023年11月)、応用情報技術者試験受験(2024年5月、結果待ち)
IT業界とは関係ない企業で、データを扱う仕事をやっています（自称DX担当）

勉強方法

まずは、無料で受けられる以下の講座を受けました。
【受講料無料】DS検定リテラシーレベル対応　データサイエンティスト基礎講座
https://www.skillupai.com/ds/

続いて、自分の理解度を確認するため、問題集を購入してやりました。
徹底攻略データサイエンティスト検定問題集リテラシーレベル対応
https://book.impress.co.jp/books/1121101053

G検定を受けた時に勉強し、機械学習の知識は-あったので、この段階で、
だいたい8割ぐらい問題が解けていました。
唯一解けなかったのが、SQLに関する問題。
SQL書いたことないので、全くわからない(泣)

ChatGPT(GPT-4o)にSQLの問題を作ってもらった

問題集だけでは足りないので、とにかく問題数をこなそうと、賢くなったChatGPT(GPT-4o,有料版)に問題を作ってもらいました。
問題集のSQLに関する問題を画像にし、読み込ませて、まずは以下のプロンプトを

添付はSQLに関するデータサイエンティスト検定の問題を示しています。添付のようなSQLクエリの多岐選択方式の問題を20問出力して。様々なコマンドを問題に含めて

得られた回答はこんな感じ。

ChatGPT(GPT-4o)の回答

以下に、さまざまなSQLコマンドを含む多岐選択方式の問題を20問作成しました。

問題 1
次のSQLを用いて、employeeというテーブルを作成し、さらにcodeとnameというカラムを定義し、各レコードに値を代入することを考える。

(ア) TABLE employee (
code SERIAL NOT NULL,
name VARCHAR(255)
);
(イ) INTO employee (code, name)
VALUES
(0, 'Taro'),
(1, 'Ken'),
(2, 'Hanako'),
(3, 'Yui'),
(4, 'Yuki');

空欄ア、イに当てはまる字句の組み合わせとして適切なものを選べ。

A. (ア) CREATE (イ) INSERT
B. (ア) MAKE (イ) INSERT
C. (ア) CREATE (イ) JOIN
D. (ア) MAKE (イ) JOIN

改良

画像から、ちゃんと問題を読み取って、様々なコマンドの問題を20問生成してくれました！すごい！！
一つ問題があって、なぜか正解がすべてAになっている。
おそらく、例として与えた画像の問題の正解がAだったから、のようです。

そこで以下のプロンプト。

さらにもう少し難しい問題を20問出題して。正解はできるだけA～Dにまんべんなく出現するように留意して

これで、正解がA～Dにまんべんなく出現するようになりました。

ChatGPT(GPT-4o)にチェックリスト対応の問題を作ってもらった

続いて実施したのが、スキルチェックリストが漏れなく理解できているかどうかを確認するための問題を作ってもらうこと。

私が受験した第7回から「データサイエンティストスキルチェックリストver.5」に基づき、検定範囲を更新する予定とのことだったのですが、購入した問題集はver.4までしか対応していなかったのです。

まず、以下より、リストがダウンロードできるので、ダウンロードしました。
スキルチェックリスト ver.5：https://www.datascientist.or.jp/common/docs/skillcheck_ver5.00_simple.xlsx
そして、検定範囲の「見習いレベル★」のマークのついているチェック項目だけフィルターをかけて・・・

データサイエンティスト検定におけるデータサイエンス力のスキルは以下が定義されています。このスキルがあるかどうかを判断できるような多肢選択式の問題を40問出題して。

得られた回答はこんな感じ。

ChatGPT(GPT-4o)の回答(生成AIに関する問題)

大規模言語モデル（LLM）でHallucinationが起こる理由の一つとして、学習に使われているデータの偏りが挙げられます。この偏りによって生じる問題点を説明してください。
A. モデルの学習が遅くなる
B. モデルの性能が向上する
C. 生成されるテキストが事実と異なる可能性がある
D. モデルの学習が不安定になる

生成AIを利用する際に、出力結果の多様性を調整するために利用されるAPIパラメーターとは何ですか？
A. Precision
B. Recall
C. Temperature
D. F1 score

データ分析やAIのモデリングにおいて、不均衡なデータセットを扱う場合に発生する問題を何と呼びますか？
A. データの偏り
B. データのスケーリング
C. データの正規化
D. データの欠損

生成AIにおいて、入力されたテキストに基づいて文を生成する際に、その文の生成確率を調整するために使われる技術は何ですか？
A. Attention mechanism
B. Beam search
C. Tokenization
D. Beam width

これを繰り返して、分かりにくかった内容についてさらにChatGPTに聞いて深堀することを繰り返して知識を定着させました。費用をかけずに効率的に勉強できたと思います。

結果

結果は、総合スコア88%でした。
（データサイエンス分野は93.4%、データエンジニアリング分野は85.7%)
問題に誤字や誤記が何か所かあったのと、別の問題にヒントや回答が含まれている問題がいくつかあったのが気になりました💦
問題の質、低い？

ChatGPT-4oで模擬問題を作らせてみた~データサイエンティスト検定の勉強法~