title: 【文系合格者が解説】G検定「自然言語処理(NLP)」攻略|Word2VecからBERTまでの流れを一気に理解
tags: G検定 AI ディープラーニング JDLA 資格
はじめに
こんにちは。2026年1月のG検定に合格した、文系出身のエンジニアです。
G検定の学習範囲の中で、文系の方にとって意外と取り組みやすいのが「自然言語処理(NLP)」の分野です。なぜなら、私たちが普段使っている「言葉」を扱う技術だからです。
とはいえ、いざ勉強を始めると「Bag of Words」「TF-IDF」「Word2Vec」「seq2seq」「BERT」「GPT」……と横文字が大量に出てきて混乱しがちです。
この記事では、自然言語処理の技術を**「コンピュータが言葉をどう理解するか」の進化の歴史**として整理します。流れを掴めば、個々の技術が何のために生まれたのかがスッと理解できるようになります。
※ この記事はJDLA公式の教材ではありません。筆者個人の学習経験に基づく内容です。
自然言語処理の最大の課題:「言葉を数字にする」
コンピュータは数字しか扱えません。そのため、自然言語処理の第一歩は言葉を数値(ベクトル)に変換することです。
この「言葉→数値」の変換方法が時代とともに進化してきた、というのがNLPの歴史のコア部分です。
テキストのベクトル化手法:3つの進化ステップ
ステップ1:Bag of Words(BoW)
| 項目 | 内容 |
|---|---|
| 考え方 | 文章中の単語の出現回数を数える |
| たとえ | 買い物袋の中身を数える(順番は気にしない) |
| 弱点 | 単語の並び順(文脈)を無視する |
「犬が猫を追いかけた」も「猫が犬を追いかけた」も同じベクトルになってしまいます。
ステップ2:TF-IDF
| 項目 | 内容 |
|---|---|
| 考え方 | 「その文書にとって重要な単語」を重み付けする |
| TF(Term Frequency) | その文書内での出現頻度 |
| IDF(Inverse Document Frequency) | 全文書中での珍しさ |
| たとえ | 「の」「は」のようなどこにでもある単語の重みを下げ、特徴的な単語を目立たせる |
BoWの改良版ですが、依然として語順を考慮しない点は同じです。
ステップ3:Word2Vec(分散表現)
| 項目 | 内容 |
|---|---|
| 考え方 | 単語を「意味を反映した」ベクトルに変換する |
| 学習方法 | 大量のテキストから「周辺の単語」を手がかりに学習 |
| すごいところ | 「王様 - 男 + 女 = 女王」のような意味の計算ができる |
Word2Vecには2つの学習方式があります。
- CBOW(Continuous Bag of Words):周辺の単語から中心の単語を予測
- Skip-gram:中心の単語から周辺の単語を予測
G検定ポイント: CBOWとSkip-gramの違いは頻出です。「周辺→中心がCBOW」「中心→周辺がSkip-gram」と覚えましょう。
NLPモデルの進化の流れ
ベクトル化手法の次に理解すべきは、文章全体を処理するモデルの進化です。
RNN → LSTM → seq2seq → Attention → Transformer → BERT / GPT
それぞれの「何が問題で、次が生まれたか」を押さえましょう。
| モデル | 解決した課題 | 新たに生じた課題 |
|---|---|---|
| RNN | 語順(時系列)を考慮できる | 長い文で前の情報を忘れる(勾配消失) |
| LSTM | 長期記憶を保持できる | 計算が遅い(逐次処理) |
| seq2seq | 入力と出力の長さが違うタスク(翻訳等)に対応 | 長い入力文の情報が圧縮されすぎる |
| Attention | 入力の「どこに注目すべきか」を学習 | まだRNN/LSTMベースで遅い |
| Transformer | Attentionだけで構成、並列計算が可能 | 大量のデータと計算資源が必要 |
BERT vs GPT:2大モデルの違い
G検定ではBERTとGPTの違いがよく問われます。
| 比較項目 | BERT | GPT |
|---|---|---|
| 開発元 | OpenAI | |
| 構造 | Transformerのエンコーダを使用 | Transformerのデコーダを使用 |
| 学習方法 | 双方向(文の前後両方を見る) | 単方向(左から右へ) |
| 得意なタスク | 文の分類、質問応答、感情分析 | 文章生成 |
| たとえ | 穴埋め問題を解く優等生 | 作文が得意な生徒 |
G検定ポイント: 「BERTは双方向、GPTは単方向」はほぼ確実に出ます。また、BERTの事前学習タスクであるマスク言語モデル(MLM)——ランダムに隠した単語を予測する——も重要キーワードです。
文系の私が使った暗記テクニック
NLPの技術は「言葉をもっとうまく理解したい」という一貫した目標に向かっています。私は以下のストーリーで全体を暗記しました。
- 数える時代(BoW, TF-IDF):単語を数えるだけ。語順無視。
- 意味を学ぶ時代(Word2Vec):単語に「意味」を持たせた。でも文脈で意味が変わることには対応できない。
- 文脈を読む時代(RNN → LSTM → Attention → Transformer):文の流れを理解できるように。
- 大規模事前学習の時代(BERT, GPT):大量テキストで事前学習し、少ないデータで様々なタスクに対応。
この4ステップの流れを掴んでおけば、個々の技術名が出てきても「あ、あの時代のやつだな」と位置づけられます。
G検定で狙われやすいポイントまとめ
| 頻出テーマ | 押さえるべきポイント |
|---|---|
| Word2Vec | CBOW vs Skip-gramの違い |
| seq2seq | エンコーダ・デコーダ構造、機械翻訳への応用 |
| Attention | 「どの入力に注目するか」の重み付け |
| BERT vs GPT | 双方向 vs 単方向、エンコーダ vs デコーダ |
| ファインチューニング | 事前学習済みモデルを特定タスクに微調整する手法 |
| 形態素解析 | 日本語を単語に分割する処理(MeCab等) |
おわりに
自然言語処理は技術名が多くて大変ですが、「言葉を数字に変換する方法の進化」という軸で整理すれば、文系の方でも十分に理解できる分野です。
特にBERT/GPTはChatGPTの登場以降、G検定でも出題が増えている印象です。この記事の流れを頭に入れた上で、問題演習で定着させていきましょう。
おすすめの学習リソース
G検定の学習には、分野別に効率よくインプットできるサイトも活用すると効果的です。私も活用していた AI検定ナビ では、G検定の出題範囲に沿った解説がまとまっていて、苦手分野の補強に役立ちました。
一緒にがんばりましょう!