はじめに
2020年7月に受験しましたので、忘れないためにも記事にまとめてみました。
参考程度に流して頂けたら嬉しいです。無事合格しました
G検定とは?
一般社団法人日本ディープラーニング協会が主催しているAIの知識を問う資格試験です。年に3回実施。
一つ上の段階でエンジニア向けのE資格という資格試験があります。G検定が取得できたらE資格も続けて受ける方もいるそうです。
受験概要
・受験資格
→特になし
・実施概要
→制限時間:2時間
→選択問題220問程度
・受験方法
→試験申し込みサイトから申し込み、自宅or職場等のパソコンからログインし受験する形式
*受験当日は、試験中にわからない問題があったら、ネット等調べながら回答はできますが、全く勉強していない状態で受験した場合、時間が到底足らなくなるので要注意。
使用した教材
1)徹底攻略 ディープラーニングG検定 ジェネラリスト 問題集 徹底攻略シリーズ
通称黒本とよばれるメインとなる本。試験直前には正答率を8割超えるまで
やりました。
2)深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキスト
通称白本。
3)これ1冊で最短合格 ディープラーニングG検定ジェネラリスト 要点整理テキスト&問題集
最近出た本です。黒本と白本では正直足らないため、購入して、繰り返しました。
経験が浅い自分が行ったやり方としては、
1)白本をざっとはじめ流し、知識を少しづつ入れ
2)黒本の問題を解きながら身につけ
3)改めて整理することを目的に要点整理テキストに手をつけました。
→大学数学などでわからないところは、youtubeの動画などを探して流し見してました。
最後にこれとは別にウェブ上の模擬試験を受け、8割を目指すようにしてました。
(ただ、これでもまだ足りないようで試験当日はとても苦労しました。)
模擬試験サイト(study-ai):http://study-ai.com/generalist/
自分がよく間違えた箇所について
演習で間違えた箇所はノートにまとめ、隙間時間に眺めてました。およそ2冊ほど。
自己満足ですが、自分がよく間違えていた箇所についてまとめてみようかと思う。(誰得
用語整理中心です。こんな内容が出るということで参考になったらいいなぁということで。
・AIの歴史について
第一次AIブーム :「推論と探索」 トイプロベレム
第二次AIブーム :エキスパートシステム
・教師あり学習
1)回帰(regression)→出力値(数値)の予測
2)分類(Classification)→あらかじめ設定したクラスにデータを割振る
(クラス分類、例えば画像に写っている犬や猫の識別)
回帰→線形回帰(単回帰分析、重回帰分析)
分類→サポートベクターマシン、決定木、ランダムフォレスト、ロジスティック回帰、KNN法
クラスタリング→似たデータがなす「クラスタ」を抽出する
(クラスタはデータから自動的に導かれる)
→k-means法
次元削除→主成分分析
データから「主成分」という新たなデータを求める。
線形な次元削減の手法を指す
正規化→データの大きさを適切にスケーリング
標準化→データの平均を0、分散を1に変換する
正則化→過学習を抑制する方法
サポートベクターマシン(SVM)
→「マージンの最大化」というコンセプトのもと、2つのクラスを線形分離するアルゴリズム
スラック変数:誤分類を許容するための工夫
サポートベクターマシンは、線形分離可能でないデータ(直線で分類しきれない)に対してもカーネル法という手法を組み合わせることで決定境界を求めることができます。
膨大な計算量が必要なため、カーネルトリックという手法で計算量を現実的に抑えつつ、非線形分離を
実現。
決定木→不純度が最も減少(情報利得が最も増加)するように条件分岐を作り、データを振り分けする。
ロジステック回帰→線形回帰を分類問題に応用したアルゴリズム
バーニーおじさんのルール
→学習には、調整が必要なパラメーター数の約10倍のデータが必要であるという経験則
ノーフリーランチの定理
→あらゆる問題に対して万能なアルゴリズムは存在しないという定理
醜いアヒルの子定理
→機械学習における定式化によって「普通のアヒル」と「醜いアヒル」の区別ができないという定理
モラベックのパラドックス
→機械としては、高度な推論よりも1才児レベルの知恵や運動スキルを身につけるほうがはるかに難しいという
パラドックス。
・局所最適解→その周辺では、誤差の値が小さいが最小値を実現するわけではない解
・大域的最適解→誤差の値を最も小さくする解
・停留点→局所最適解でも大域的最適解でもないが匂配が0になる点
重みの更新のタイミング
・エポック→訓練データを何度学習に用いたか
・イテレーション→重みを何度更新したか
・画像認識に適したもの→畳み込みニューラルネットワーク(CNN)
・時系列データに適したもの→再帰型ニューラルネットワーク(RNN)
アンサンブル学習→弱学習器を組み合わせて精度をあげる手法
- バキング→各モデルを並列に学習
- ブースティング→各モデルを逐次的に学習
物体検出とは?
→対象物がどこにあるかをボックスに切り取り、対象物を推定するタスク
物体セグメンテーション
→対象物体を背景をピクセルごとに詳細に切り分けて、そのピクセルごとが示す意味を推定するタスク
感想
練習段階では、1時間ちょいで終わっていましたが、本番での回答終了時間は、試験終了の30秒前でした。
ネットでも騒がれているように、公式テキスト以外も多く出題します。
技術も覚えるだけではなく、理解するのもとても重要。
ただ、テキスト内容も3〜4割程度出題するので、基本を頭に入れる意味でも公式テキストを
やりこむのは必須です。ふむー。
G検定の資格勉強をきっかけに、大学数学や統計も少しかじる機会があり、視野がすこ〜し広がりました。
この資格取得をきっかけに、仕事の幅が広がるといいなと思います。