PEP検定まとめ①｜第1章生成AIと大規模言語モデルの基礎（日本語 / 中文）

Last updated at 2026-03-04Posted at 2026-03-04

PEP検定の公式資料（全6章）を整理するシリーズです。
本記事では「第1章生成AIと大規模言語モデルの基礎」の内容をまとめています。

本系列文章对 PEP检定官方资料（共6章）进行整理总结。
本文主要整理「第1章生成AI与大规模语言模型基础」的内容。

1. AIの基礎知識 / AI基础知识

1-1. AIとは / AI是什么

日本語

AI（Artificial Intelligence）とは、コンピュータシステムが人間の知能を模倣し、学習・推論・認識・意思決定などのタスクを自動的に行う技術です。データのパターンを学習する機械学習や、問題解決に必要な情報を活用するアルゴリズムが含まれます。

中文

AI（人工智能）是指计算机系统模拟人类智能，自动执行学习、推理、识别、决策等任务的技术。其中包括从数据中学习规律的机器学习，以及用于解决问题的算法。

1-2. AIの歴史 / AI发展历史

年代 / 年代	出来事 / 事件
1950年代	ダートマス会議でジョン・マッカーシーが「人工知能」を提唱 / 达特茅斯会议上约翰·麦卡锡提出"人工智能"概念
1980年代	エキスパートシステム・機械学習の発展 / 专家系统与机器学习的发展
2010年代	ディープラーニングの革命（2012年、画像認識で躍進） / 深度学习革命（2012年图像识别领域取得突破）

1-3. AIの分類 / AI的分类

⚠️ 注意 / 注意：以下の分類は研究者や業界によって定義が異なる場合があります。/ 以下分类因研究者和行业而定义可能有所不同。

① Narrow AI（特化型AI・弱いAI）/ 专用AI（弱AI）

日本語：特定のタスクや領域に特化して設計されたAI。その分野では高精度だが、他の領域には応用できない。
例：チャットボット、音声アシスタント（Siri・Alexa）、顔認識システム、自動運転

中文：专为特定任务或领域设计的AI，在该领域精度高，但无法应用于其他领域。
例：聊天机器人、语音助手（Siri・Alexa）、人脸识别系统、自动驾驶

② AGI（汎用型AI・強いAI）/ 通用AI（强AI）

日本語：人間と同等の知能を持ち、複数のタスクに柔軟に対応できるAI。現在はまだ研究段階。
例：SF作品のAI（HAL9000、J.A.R.V.I.S.など）

中文：拥有与人类同等智能、能灵活处理多种任务的AI。目前仍处于研究阶段。
例：科幻作品中的AI（HAL9000、J.A.R.V.I.S.等）

1-4. シンギュラリティ / 奇点（技术奇点）

💡 ポイント / 重点

日本語：AIが人類の知能を超えるとされる転換点。AGIが登場すると自己改善が加速し、人間の制御を超える可能性がある。未来学者レイ・カーツワイルは2045年頃の到来を予測。専門家の間でも意見が分かれている。

中文：被认为是AI超越人类智能的转折点。AGI出现后，AI将持续自我改进，可能超出人类控制范围。未来学家雷·库兹韦尔预测奇点将在 2045年前后 到来。专家之间对此看法不一。

2. 機械学習とディープラーニング / 机器学习与深度学习

2-1. 機械学習 / 机器学习

日本語：大量のデータからパターンや法則を見つけ出し、モデルのパラメータを調整するプロセス。

手法 / 方法	説明 / 说明
教師あり学習 / 监督学习	正解ラベル付きデータで学習し、未知データに対する出力を予測 / 使用带标签数据训练，预测未知数据的输出
教師なし学習 / 无监督学习	ラベルなしデータでデータの構造やパターンを発見 / 使用无标签数据发现数据结构和规律

中文：从大量数据中寻找规律，调整模型参数的过程。

2-2. ディープラーニング / 深度学习

💡 ポイント / 重点

日本語：多数の層で構成されたニューラルネットワークを使用し、大量データから自動的に特徴を抽出する技術。従来の機械学習では手動で特徴量を設定する必要があったが、ディープラーニングでは自動化されるため精度・効率が大幅に向上。

中文：使用由多层组成的神经网络，从大量数据中自动提取特征的技术。与传统机器学习需要手动设定特征不同，深度学习实现了自动化，大幅提升了精度和效率。

3. 生成モデル / 生成模型

3-1. 主な生成モデルの種類 / 主要生成模型类型

モデル / 模型	特徴 / 特点	用途 / 用途
RNN	時系列データ処理、過去情報を現在に反映 / 处理时序数据，将过去信息反映到当前	テキスト生成・音声認識 / 文本生成・语音识别
LSTM	RNNの改良版、長期依存関係の学習が可能 / RNN改良版，可学习长期依赖关系	長文・長期時系列 / 长文本・长期时序
GAN	生成ネットワークと識別ネットワークが競い合って学習 / 生成网络与判别网络相互对抗学习	画像・動画生成 / 图像・视频生成
VAE	データの確率分布を学習して新データを生成 / 学习数据概率分布生成新数据	ノイズ除去・異常検知 / 去噪・异常检测
Transformer	自己注意機構により長距離依存を効率処理 / 自注意力机制高效处理长距离依赖	テキスト・画像生成 / 文本・图像生成
拡散モデル / 扩散模型	ノイズを段階的に除去して高品質画像を生成 / 逐步去除噪声生成高质量图像	高品質画像生成 / 高质量图像生成

3-2. 代表的なテキスト生成モデル / 代表性文本生成模型

モデル / 模型	開発元 / 开发者	特徴 / 特点
GPTシリーズ	OpenAI	自己回帰型、テキスト生成に特化 / 自回归型，专注文本生成
BERT	Google	双方向の文脈理解、テキスト理解に特化 / 双向文本理解
Gemini	Google DeepMind	マルチモーダル処理（テキスト・画像・音声） / 多模态处理（文本・图像・音声）

4. LLM（大規模言語モデル）/ LLM（大规模语言模型）

4-1. LLMとは / LLM是什么

💡 ポイント / 重点

日本語：従来の言語モデルと比べ、以下の3要素が大幅に増加したモデル。

要素 / 要素	説明 / 说明	人間での例え / 人类类比
データセットサイズ	モデルが学ぶ知識の量 / 模型学习的知识量	読んだ本の量 / 读过的书的数量
計算量	学習・推論に必要な計算の多さ / 训练和推理所需的计算量	思考の深さ / 思考的深度
パラメータ数	学習能力を決める変数の数 / 决定学习能力的变量数量	記憶力・理解力 / 记忆力・理解力

中文：相比传统语言模型，以下3个要素大幅增加的模型。三者越多，LLM越智能，能生成更高精度的内容。

4-2. Transformerアーキテクチャ / Transformer架构

💡 ポイント / 重点：LLMの核心技術 / LLM的核心技术

日本語：2017年Googleの論文「Attention Is All You Need」で提案。自己注意機構（Self-Attention） が中心概念。

文章内の単語が他の単語とどの程度関連しているかを「重み」として数値化
長距離依存の解消：遠くの単語同士の関係も捉えられる
並列処理により学習・推論が効率的

中文：2017年Google论文「Attention Is All You Need」中提出。核心概念是自注意力机制（Self-Attention）。

将句子中词语之间的关联程度数值化为"权重"
解决长距离依赖：能捕捉远距离词语之间的关系
并行处理使训练和推理更高效

4-3. LLMのトレーニング / LLM的训练过程

💡 ポイント / 重点：2段階構成 / 两阶段结构

事前学習（Pretraining）→ ファインチューニング（Fine-Tuning）→ 推論（Inference）
预训练（Pretraining） → 微调（Fine-Tuning）              → 推理（Inference）

① 事前学習 / 预训练

日本語：膨大なテキストデータ（ウェブ・書籍・論文など）を使って、汎用的な言語能力を習得させる段階。自己教師あり学習（ラベル不要）を使用。計算コスト・電力消費が非常に大きい。

中文：使用海量文本数据（网页・书籍・论文等）训练模型，使其掌握通用语言能力。使用自监督学习（无需标签）。计算成本和电力消耗极大。

② ファインチューニング / 微调

日本語：事前学習で得た汎用能力を、特定タスク（質問応答・翻訳など）に最適化する段階。少量の高品質ラベル付きデータを使用。過学習に注意が必要。

中文：将预训练获得的通用能力，针对特定任务（问答・翻译等）进行优化的阶段。使用少量高质量标注数据。需注意过拟合问题。

③ 推論 / 推理

日本語：学習済みモデルを使って、新しい入力に対して出力を生成するプロセス。

⚠️ 重要 / 重要：LLMの生成は「確率的に最も適切な回答を選ぶ」ものであり、事実の正確性を保証するものではない。/ LLM的生成是"概率性地选择最合适的回答"，不保证事实的准确性。

推論の流れ / 推理流程：
入力受取 → トークン化 → 自己注意機構による計算 → 出力生成
接收输入 → 分词（Tokenize） → 自注意力机制计算 → 生成输出

4-4. LLMの長所と短所 / LLM的优缺点

長所 / 优点

項目 / 项目	説明 / 说明
大規模データ学習 / 大规模数据学习	多様なタスクに対応可能 / 可应对多种任务
自然な文章生成 / 自然文本生成	人間らしい文章を生成 / 生成类人文本
多言語対応 / 多语言支持	様々な言語に対応 / 支持多种语言

短所・リスク / 缺点・风险

項目 / 项目	説明 / 说明
ハルシネーション / 幻觉（Hallucination）	実在しない情報を生成することがある / 可能生成不存在的信息
知識のカットオフ / 知识截止日期	学習データの最終更新日以降の情報は持たない / 不具备训练数据截止日期后的信息
バイアス / 偏见（Bias）	学習データの偏りが出力に反映される / 训练数据的偏差会反映在输出中
データ依存性 / 数据依赖性	出力品質はデータの量・質に依存 / 输出质量依赖数据的量和质量

4-5. LLMの活用と注意点 / LLM的应用与注意事项

⚠️ 利用時の注意 / 使用注意

日本語

出力内容は必ず信頼できる情報源で確認する
機密情報・個人情報は入力しない
LLMは補助ツールとして使用し、重要な判断は人間が行う
カットオフ日以降の情報は外部ソースで検証する

中文

输出内容必须通过可靠信息源进行核实
不要输入机密信息或个人信息
将LLM作为辅助工具，重要决策由人类做出
截止日期后的信息需通过外部来源验证

5. 片假名用語まとめ / 片假名术语汇总

📌 試験頻出カタカナ用語 / 考试高频片假名术语

カタカナ	読み方	中文解释
アルゴリズム	algorithm	算法：解决问题的步骤和规则
ニューラルネットワーク	neural network	神经网络：模拟人脑结构的计算模型
ディープラーニング	deep learning	深度学习：多层神经网络的机器学习技术
トランスフォーマー	transformer	Transformer：基于自注意力机制的模型架构
パラメータ	parameter	参数：模型训练中被优化调整的变量
ファインチューニング	fine-tuning	微调：在预训练模型基础上针对特定任务的优化训练
プレトレーニング（事前学習）	pre-training	预训练：使用大规模数据进行初始训练
ハルシネーション	hallucination	幻觉：AI生成不存在或错误信息的现象
バイアス	bias	偏见/偏差：训练数据中的倾向性导致的输出偏差
トークン	token	词元：文本被分割处理的最小单位（词或子词）
トークナイザー	tokenizer	分词器：将文本分割为Token的工具
カットオフ	cutoff	截止：模型训练数据的时间截止点
シンギュラリティ	singularity	奇点：AI超越人类智能的理论转折点
マルチモーダル	multimodal	多模态：同时处理文字、图像、音声等多种数据类型
アーキテクチャ	architecture	架构：AI模型的整体设计结构
ベンチマーク	benchmark	基准测试：用于评估和比较模型性能的标准测试
ゼロショット	zero-shot	零样本：无需针对特定任务训练即可执行该任务的能力
セルフアテンション（自己注意機構）	self-attention	自注意力机制：计算序列中各元素间关联程度的机制
GAN	Generative Adversarial Network	生成对抗网络：生成器与判别器相互对抗的生成模型
VAE	Variational Autoencoder	变分自编码器：学习数据概率分布的生成模型
LLM	Large Language Model	大规模语言模型：使用海量数据训练的大型自然言語処理モデル
NLP	Natural Language Processing	自然语言处理：让计算机理解和生成人类语言的技术
AGI	Artificial General Intelligence	通用人工智能：具备人类同等智能的AI（目前仍是研究阶段）
GPT	Generative Pre-trained Transformer	生成式预训练Transformer：OpenAI开发的大规模语言模型系列
BERT	Bidirectional Encoder Representations from Transformers	双向编码器表示模型：Google开发的专注文本理解的模型

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

PEP検定まとめ①｜第1章 生成AIと大規模言語モデルの基礎（日本語 / 中文）

1. AIの基礎知識 / AI基础知识

1-1. AIとは / AI是什么

1-2. AIの歴史 / AI发展历史

1-3. AIの分類 / AI的分类

1-4. シンギュラリティ / 奇点（技术奇点）

2. 機械学習とディープラーニング / 机器学习与深度学习

2-1. 機械学習 / 机器学习

2-2. ディープラーニング / 深度学习

3. 生成モデル / 生成模型

3-1. 主な生成モデルの種類 / 主要生成模型类型

3-2. 代表的なテキスト生成モデル / 代表性文本生成模型

4. LLM（大規模言語モデル）/ LLM（大规模语言模型）

4-1. LLMとは / LLM是什么

4-2. Transformerアーキテクチャ / Transformer架构

4-3. LLMのトレーニング / LLM的训练过程

4-4. LLMの長所と短所 / LLM的优缺点

4-5. LLMの活用と注意点 / LLM的应用与注意事项

5. 片假名用語まとめ / 片假名术语汇总

PEP検定まとめ①｜第1章生成AIと大規模言語モデルの基礎（日本語 / 中文）