JDLA Generative AI Test 2023
JDLAが生成AIに関するミニテストを発表しました。
https://www.jdla.org/certificate/generativeai/
2023年6月24日(土)に実施されます。15分間に20問程度という短時間の試験です。
この原稿の公開時には申し込み期間が終了しています。ご了承ください。
初のテストでありどのような問題が出されるかまったく未知ですがシラバスから考えてみました。
https://www.jdla.org/certificate/generativeai/#toc4
シラバスはちょうと出題数の20問(正確には20問程度)と一致していたため各シラバスの項目ごとに問題を考えてみました。
前半は技術よりでG検定を想定として考えてみました。後半は、そもそもシラバスの単語と生成AIとの関連もよくわからないものもあり想定で書いています。
結構長い問題になったのでこれでは時間が足りないかもしれません。もっと、簡潔が問題が出されるかもしれません。
また、出題形式はG検定を参考に択一式にしていますが、複数選択も出題されるようですので注意してください。
まったくの想像で書いてますので、参考程度にとどめておいてください。また、内容の正確性や正解の正しさもご自身で判断お願いします。間違っていても一切責任は負いませんのでご了承ください。
問題編
問題1
ハルシネーションが発生する原因として、最も適切な選択肢を1つ選べ。
- 文章生成時、次の単語として確率の高い単語を並べているだけで、内容が正しいかは考慮していない。
- 学習文章が少なすぎるため正しい文章が生成できない。学習文章を増やす必要がある。
- 日本語で質問した場合、内部的に英語に直して質問し回答を翻訳しているため正しい翻訳とならない場合がある。
- LLMが有用な質問ではないことを見抜き適当な回答を作成している。
問題2
Transformerの特徴として、最も不適切な選択肢を1つ選べ。
- Attention機構をもち単語間の関連度合いを学習する。
- 時間軸にそって順にデータの特徴を集約していく再帰的な構造を持つ。
- BERTやGPTの内部でTransformerの仕組みが利用されている。
- Query、Key、Valueを利用しAttentionを計算し、複数のAttentionを計算するMulti-Head Attentionの構造を持つ。
問題3
自己教師あり学習の説明として、最も不適切な選択肢を1つ選べ。
- 自己教師あり学習を利用することで大量の文章のアノテーションコストを大幅に削減でき、大量の文章での学習が行えるようになった。
- 事前学習済のモデルに対して、目的のタスクに合わせて再学習を行うこと。
- BERTでは、MLM(Masked Language Model)、NSP(Next Sentence Prediction)の2つの自己教師あり学習が利用されている。
- 自己教師あり学習は、LLM以外にも画像生成などでも利用されている。
問題4
ChatGPTでは、インストラクション・チューニングが行われています。インストラクション・チューニングについて、最も不適切な選択肢を1つ選べ。
- 人間にとって不都合な回答を行う可能性があるため、不都合な回答をしないようにチューニングを行う。
- ChatGPTでは、RLHF(人間のフォードバックによる強化学習)が行われている。
- ChatGPTでは、人間の好みの文章でファインチューニングが行われている。
- インストラクション・チューニングを行えば、人間にとって不都合な情報は返答されない技術が確立している。
問題5
Zero-Shotの例として、最も適切な選択肢を1つ選べ。
- 英語から日本語に翻訳してと依頼したら翻訳ができた。
- 「This is a pen.」を「これはペンです。」となるように1つ例示した。
- 複数の翻訳例を与えて英語から日本語の翻訳を行った。
- 少量の翻訳文で再学習を行った。
問題6
拡散モデルの特徴として、最も不適切な選択肢を1つ選べ。
- データに徐々にノイズを加えていく拡散過程、ノイズから画像を生成する逆拡散過程がある。
- DALL・E2やStable Diffusionなど画像生成AIのベースになっている。
- ジェネレータとディスクリミネータが敵対しながら学習を行う。
- 拡散モデルは、自然言語処理にも利用できる。
問題7
大規模言語モデルのオープン化について、最も不適切な選択肢を1つ選べ。
- The Pile、RedPajama、The Stackなど大規模言語モデル用の大規模データセットが公開されている。
- 大規模言語モデルの開発には、オープンコミュニティで議論が活発に行われており重要な役割を果たしている。
- 日本語用の大規模言語モデルもオープンソースとして公開されている。
- 大規模言語モデルのモデルは、各社の技術の集積であるため、一般的に外部に公開されることはない。
問題8
大規模言語モデルの説明として、最も不適切な選択肢を1つ選べ。
- BERTは、1750 億個のパラメータを持っている。
- GPT3は、Webなどから収集した 45TB の膨大なテキストから、570GB のデータを学習している。
- GPT3の1回の学習には、クラウドの費用だけで数億円かかると言われている。
- 大規模言語モデルでは、モデルを大きくすればするほどモデルの性能は高くなるという経験則がある。
問題9
大規模言語モデルのマルチモーダル化について、最も不適切な選択肢を1つ選べ。
- GPT-4では自然言語だけでなく画像も扱うことが可能となっておりマルチモーダル化が進んでいる。
- 自然言語処理と画像を扱うAIのモデルはそれぞれ独自に進化しており両方同時に扱う研究はなされていない。
- 自然言語や音声、画像を扱うことが可能になれば、視覚障がいのある方にも目の前の状況を伝えることが可能になる。
- マルチモーダル化は、ロボットへの応用も期待できる。
問題10
ChatGPTについての説明のうち、最も適切な選択肢を1つ選べ。
- 学習時点の情報のみならず学習時点以降の情報も予測し回答することができる。
- 数字の計算問題は答えがひとつに定まるため得意としている。
- 学習した文章に含まれている内容は、必ず間違いなく回答することができる。
- 生成された文章は、間違いないか人間により確かめる必要がある。
問題11
現時点でChatGPTができることとして、最も不適切な選択肢を1つ選べ。
- 文章の添削、構成
- 文章の要約
- 人間の感情の理解
- アイデアの提案
問題12
現時点のLLMの活用事例として、最も不適切な選択肢を1つ選べ。
- 自治体ではセキュリティの問題があるため活用が進んでいない。
- パナソニックやベネッセではほぼ全社員にLLMが利用できる環境を展開していると言われている。
- 弁護士ドットコムでは、ChatGPTを活用した法律相談のチャットサービスの試験提供を開始している。
- サーバーエージェントでは広告のコピーの作成に活用していると言われている。
問題13
ChatGPTの活用にはプロンプトエンジニアリングが重要と言われている。良いプロンプトの例として、最も不適切な選択肢を1つ選べ。
- 役割を明確にするため「あなたは法律の専門家です」と定義する。
- 誰でもわかる回答を得るため小学生でもわかるように説明してと依頼する。
- 結果をプログラムで利用するためjson形式で回答してと依頼する。
- 順を追ってステップごと回答させるより、まとめて全体を回答させる。
問題14
生成AIの活用アプローチとして、最も不適切な選択肢を1つ選べ。
- 生成AIの活用方法のアイデア出しとしてとハッカソンが行われている。
- 生成AIの活用事例がインタネットや書籍に掲載されている。
- 生成AIの活用には専門的な知識が必要であり、活用方法は専門家の間で検討されている。
- 生成AIを業務で利用してみることで新たな活用方法が見つかることがある。
問題15
生成AIの懸念点として、最も不適切な選択肢を1つ選べ。
- LLMでは、今後もインタネット上に大量の文章があり学習データの心配はない。
- LLMは、必ずしも常識を持ち合わせていないため常識を逸した返答をする場合がある。
- 生成AIは、悪意を持った人間に悪用される可能性がある。
- 情報が外部に漏れないように自社でLLMシステムを持つ場合、費用が高い。
問題16
生成AIの各業界での活用について、最も不適切な選択肢を1つ選べ。
- 例えば、法律や医学などに特化したLLMが検討されている。
- 広告コピーの作成などクリエイティブ分野への活用が進んでいる。
- IT業界では、プログラムの製造に利用するとバグを埋め込む可能性があるため活用の議論が進んでいない。
- ロボットの制御など製造業で検討が進められている。
問題17
生成AIを活用する際のリスクとして、最も不適切な選択肢を1つ選べ。
- 外部生成AIに秘密情報を入力した場合、企業秘密が外部に漏れるリスクがある。
- ChatGPTは、世界中の大量の文章で学習しているため人類にとって公平な回答をしてくれる。
- ChatGPTなどのLLMは、個人情報を学習している可能性もあり、個人情報が流出する恐れがある。
- ChatGPTの回答が誰がいつ発言した内容かまで記載されており本当であると思われたが、正しいとは限らないため真偽の確認を行った。
問題18
生成AIの学習および利用する際に注意すべきこととして、最も不適切な選択肢を1つ選べ。
- インタネットに公開されている大量の文章を利用して学習すること自体は、日本の著作権法には違反しない。
- 画像生成AIが生成した画像が、既存の著作物と酷似していても生成AIが生成した以上著作権上の問題はない。
- LLMの学習には、個人情報を含まないように注意する必要がある。
- 生成AIの活用には、利用規約を確認し利用規約の範囲で利用する必要がある。
問題19
生成AIの今後について、最も不適切な選択肢を1つ選べ。
- 生成AIが何を学習したかわからないため、学習データを公開し透明性を高める動きがある。
- LLMは、今後、ブラウザなどに組み込まれる可能性があり、より一般の人に利用さされることが想定され、生成AIに関するリテラシを高める必要がある。
- 生成AIの利用拡大により、現在対応している仕事が生成AIに置き換わり職を失う人がでることが想定される。
- 生成AIに対するリスクは、すでに公になっておりその対応を行えば十分である。
問題20
生成AI活用時のリスク低減策として、最も不適切な選択肢を1つ選べ。
- 会社として、生成AI利用のおける利用ガイドを策定した。
- 画像生成AIにより生成した画像が著作物に類似していないか確認し外部に公開した。
- LLMで個人情報らしきものが生成されたが、LLMは個人情報は把握していないのでそのまま利用した。
- ChatGPTには、社内秘の情報や個人情報は入力しないようにした。
解答編
解答です。
解答の正しさは保証しませんので、ご自身の判断で利用してください。
間違っていても一切責任は負いません。
問題1
ハルシネーションが発生する原因として、最も適切な選択肢を1つ選べ。
- 文章生成時、次の単語として確率の高い単語を並べているだけで、内容が正しいかは考慮していない。
- 学習文章が少なすぎるため正しい文章が生成できない。学習文章を増やす必要がある。
- 日本語で質問した場合、内部的に英語に直して質問し回答を翻訳しているため正しい翻訳とならない場合がある。
- LLMが有用な質問ではないことを見抜き適当な回答を作成している。
正解:1
LLMの基本は確率モデルであることを理解しておいてください。
問題2
Transformerの特徴として、最も不適切な選択肢を1つ選べ。
- Attention機構をもち単語間の関連度合いを学習する。
- 時間軸にそって順にデータの特徴を集約していく再帰的な構造を持つ。
- BERTやGPTの内部でTransformerの仕組みが利用されている。
- Query、Key、Valueを利用しAttentionを計算し、複数のAttentionを計算するMulti-Head Attentionの構造を持つ。
正解:2
再帰的構造を持つのは、RNN(リカレントニューラルネットワーク)です。
G検定よりの技術問題となっておりここまで問われるかどうかわかりません。
問題3
自己教師あり学習の説明として、最も不適切な選択肢を1つ選べ。
- 自己教師あり学習を利用することで大量の文章のアノテーションコストを大幅に削減でき、大量の文章での学習が行えるようになった。
- 事前学習済のモデルに対して、目的のタスクに合わせて再学習を行うこと。
- BERTでは、MLM(Masked Language Model)、NSP(Next Sentence Prediction)の2つの自己教師あり学習が利用されている。
- 自己教師あり学習は、LLM以外にも画像生成などでも利用されている。
正解:2
2は、ファインチューニングについての記載です。
問題4
ChatGPTでは、インストラクション・チューニングが行われています。インストラクション・チューニングについて、最も不適切な選択肢を1つ選べ。
- 人間にとって不都合な回答を行う可能性があるため、不都合な回答をしないようにチューニングを行う。
- ChatGPTでは、RLHF(人間のフォードバックによる強化学習)が行われている。
- ChatGPTでは、人間の好みの文章でファインチューニングが行われている。
- インストラクション・チューニングを行えば、人間にとって不都合な情報は返答されない技術が確立している。
正解:4
現状では、完全に不都合な回答をしない技術は確立されていません。
問題5
Zero-Shotの例として、最も適切な選択肢を1つ選べ。
- 英語から日本語に翻訳してと依頼したら翻訳ができた。
- 「This is a pen.」を「これはペンです。」となるように1つ例示した。
- 複数の翻訳例を与えて英語から日本語の翻訳を行った。
- 少量の翻訳文で再学習を行った。
正解:1
2は、One-Shot、3は、Few-Shot、4はファインチューニングの例です。
問題6
拡散モデルの特徴として、最も不適切な選択肢を1つ選べ。
- データに徐々にノイズを加えていく拡散過程、ノイズから画像を生成する逆拡散過程がある。
- DALL・E2やStable Diffusionなど画像生成AIのベースになっている。
- ジェネレータとディスクリミネータが敵対しながら学習を行う。
- 拡散モデルは、自然言語処理にも利用できる。
正解:3
3は、GANの仕組みです。
問題7
大規模言語モデルのオープン化について、最も不適切な選択肢を1つ選べ。
- The Pile、RedPajama、The Stackなど大規模言語モデル用の大規模データセットが公開されている。
- 大規模言語モデルの開発には、オープンコミュニティで議論が活発に行われており重要な役割を果たしている。
- 日本語用の大規模言語モデルもオープンソースとして公開されている。
- 大規模言語モデルのモデルは、各社の技術の集積であるため、一般的に外部に公開されることはない。
正解:4
LLMの多くのモデルは、オープンソースとして公開されています。
問題8
大規模言語モデルの説明として、最も不適切な選択肢を1つ選べ。
- BERTは、1750 億個のパラメータを持っている。
- GPT3は、Webなどから収集した 45TB の膨大なテキストから、570GB のデータを学習している。
- GPT3の1回の学習には、クラウドの費用だけで数億円かかると言われている。
- 大規模言語モデルでは、モデルを大きくすればするほどモデルの性能は高くなるという経験則がある。
正解:1
1は、GPT3の説明です。
データ量、計算能力、パラメータ数を増やせば増やすほど精度があがると言われています。
問題9
大規模言語モデルのマルチモーダル化について、最も不適切な選択肢を1つ選べ。
- GPT-4では自然言語だけでなく画像も扱うことが可能となっておりマルチモーダル化が進んでいる。
- 自然言語処理と画像を扱うAIのモデルはそれぞれ独自に進化しており両方同時に扱う研究はなされていない。
- 自然言語や音声、画像を扱うことが可能になれば、視覚障がいのある方にも目の前の状況を伝えることが可能になる。
- マルチモーダル化は、ロボットへの応用も期待できる。
正解:2
マルチモーダル化の研究も活発になされています。
問題10
ChatGPTについての説明のうち、最も適切な選択肢を1つ選べ。
- 学習時点の情報のみならず学習時点以降の情報も予測し回答することができる。
- 数字の計算問題は答えがひとつに定まるため得意としている。
- 学習した文章に含まれている内容は、必ず間違いなく回答することができる。
- 生成された文章は、間違いないか人間により確かめる必要がある。
正解:4
学習以前の情報しか答えられません。また、計算は苦手で桁数の多い演算は間違えたりします。
問題11
現時点でChatGPTができることとして、最も不適切な選択肢を1つ選べ。
- 文章の添削、構成
- 文章の要約
- 人間の感情の理解
- アイデアの提案
正解:3
現時点では困難とされています。
問題12
現時点のLLMの活用事例として、最も不適切な選択肢を1つ選べ。
- 自治体ではセキュリティの問題があるため活用が進んでいない。
- パナソニックやベネッセではほぼ全社員にLLMが利用できる環境を展開していると言われている。
- 弁護士ドットコムでは、ChatGPTを活用した法律相談のチャットサービスの試験提供を開始している。
- サーバーエージェントでは広告のコピーの作成に活用していると言われている。
正解:1
自治体でも活用が進んでいます。
横須賀市 - 全庁的な活用実証を開始、行政文書の作成などで活用
三豊市 - ゴミ出し案内。簡単に多国語対応できる。
問題13
ChatGPTの活用にはプロンプトエンジニアリングが重要と言われている。良いプロンプトの例として、最も不適切な選択肢を1つ選べ。
- 役割を明確にするため「あなたは法律の専門家です」と定義する。
- 誰でもわかる回答を得るため小学生でもわかるように説明してと依頼する。
- 結果をプログラムで利用するためjson形式で回答してと依頼する。
- 順を追ってステップごと回答させるより、まとめて全体を回答させる。
正解:4
難しい問題は、ステップごとに順に回答させることによって、より期待した回答を得ることができます。
問題14
生成AIの活用アプローチとして、最も不適切な選択肢を1つ選べ。
- 生成AIの活用方法のアイデア出しとしてとハッカソンが行われている。
- 生成AIの活用事例がインタネットや書籍に掲載されている。
- 生成AIの活用には専門的な知識が必要であり、活用方法は専門家の間で検討されている。
- 生成AIを業務で利用してみることで新たな活用方法が見つかることがある。
正解:3
生成AIの活用については、今までのAIの活用とは異なり一般の方でも広く検討がなされています。また、黎明期であり利用してみて活用方法を検討することも広く行われています。
問題15
生成AIの懸念点として、最も不適切な選択肢を1つ選べ。
- LLMでは、今後もインタネット上に大量の文章があり学習データの心配はない。
- LLMは、必ずしも常識を持ち合わせていないため常識を逸した返答をする場合がある。
- 生成AIは、悪意を持った人間に悪用される可能性がある。
- 情報が外部に漏れないように自社でLLMシステムを持つ場合、費用が高い。
正解:1
文章自体はインタネットに大量にありますが、役に立つ情報には限界があり、今後はより専門的な洗練された文章が必要であると言われています。
LLMは、自企業で保持する文章をファインチューニングするだけでも数百万円程度のクラウド費用が必要と言われており、自社の文章で学習するための費用は現時点では非常に高価です。
問題16
生成AIの各業界での活用について、最も不適切な選択肢を1つ選べ。
- 例えば、法律や医学などに特化したLLMが検討されている。
- 広告コピーの作成などクリエイティブ分野への活用が進んでいる。
- IT業界では、プログラムの製造に利用するとバグを埋め込む可能性があるため活用の議論が進んでいない。
- ロボットの制御など製造業で検討が進められている。
正解:3
各分野で専門性を持ったLLMの検討、開発が行われています。
ただし、今後は、専門性を持ったAIが主流になるか、汎用性をもった大規模なAIが主流になるかは、現時点ではわかりません。
問題17
生成AIを活用する際のリスクとして、最も不適切な選択肢を1つ選べ。
- 外部生成AIに秘密情報を入力した場合、企業秘密が外部に漏れるリスクがある。
- ChatGPTは、世界中の大量の文章で学習しているため人類にとって公平な回答をしてくれる。
- ChatGPTなどのLLMは、個人情報を学習している可能性もあり、個人情報が流出する恐れがある。
- ChatGPTの回答が誰がいつ発言した内容かまで記載されており本当であると思われたが、正しいとは限らないため真偽の確認を行った。
正解:2
ChatGPTは、自然な文章を生成するため、内容も真実であるように思えてしまいますが、文章自体は確率論で生成されているため正しいかどうかはわかりません。あくまでも作業の補助として活用し、真偽は別に確認する必要があります。
問題1のハルシネーションを覚えておいてください。
問題18
生成AIの学習および利用する際に注意すべきこととして、最も不適切な選択肢を1つ選べ。
- インタネットに公開されている大量の文章を利用して学習すること自体は、日本の著作権法には違反しない。
- 画像生成AIが生成した画像が、既存の著作物と酷似していても生成AIが生成した以上著作権上の問題はない。
- LLMの学習には、個人情報を含まないように注意する必要がある。
- 生成AIの活用には、利用規約を確認し利用規約の範囲で利用する必要がある。
正解:2
インタネットに公開されている画像や文章を用いて学習すること自体は、日本の法律では著作権違反にはなりません。
ただし、著作物と類似のものを生成した場合には、著作権違反に問われる可能性があります。違反になるかどうかの基準は人間が作成した画像と同じだと考えれもらえれば問題ないです。
問題19
生成AIの今後について、最も不適切な選択肢を1つ選べ。
- 生成AIが何を学習したかわからないため、学習データを公開し透明性を高める動きがある。
- LLMは、今後、ブラウザなどに組み込まれる可能性があり、より一般の人に利用さされることが想定され、生成AIに関するリテラシを高める必要がある。
- 生成AIの利用拡大により、現在対応している仕事が生成AIに置き換わり職を失う人がでることが想定される。
- 生成AIに対するリスクは、すでに公になっておりその対応を行えば十分である。
正解:4
生成AIは、まだまだ黎明期であり生成AIの進歩や活用が進むにしたがって新たなリスクが発生するおそれがあります。
問題20
生成AI活用時のリスク低減策として、最も不適切な選択肢を1つ選べ。
- 会社として、生成AI利用のおける利用ガイドを策定した。
- 画像生成AIにより生成した画像が著作物に類似していないか確認し外部に公開した。
- LLMで個人情報らしきものが生成されたが、LLMは個人情報は把握していないのでそのまま利用した。
- ChatGPTには、社内秘の情報や個人情報は入力しないようにした。
正解:3
欧州では、著作物を学習した場合、学習した著作物を公開を義務付けることが検討されています。
また、規制により生成AIの活用が停滞する恐れもあります。
活用時のリスクではありませんが、活用しないリスクもあります。活用しないことで競争優位性を失う恐れがあります。