【文系合格者が解説】G検定「データの前処理」攻略｜特徴量エンジニアリングの頻出ポイントを整理

Posted at 2026-05-21

title: 【文系合格者が解説】G検定「データの前処理」攻略｜特徴量エンジニアリングの頻出ポイントを整理
tags: G検定 AI ディープラーニング JDLA 資格

はじめに

こんにちは。2026年1月のG検定に合格した、文系出身のエンジニアです。

G検定の勉強をしていると、「モデルの精度はデータの前処理で8割決まる」という話をよく目にしませんか？　私も最初は「アルゴリズムを覚えれば大丈夫でしょ」と思っていましたが、実際の試験ではデータの前処理・特徴量エンジニアリングに関する問題が想像以上に出題されました。

この記事では、文系出身の私が苦労したポイントを踏まえて、G検定で問われる「データの前処理」と「特徴量エンジニアリング」の頻出知識をわかりやすく整理します。

そもそもデータの前処理とは？

機械学習モデルに「生のデータ」をそのまま突っ込んでも、良い結果は出ません。現実のデータには欠損値（空欄）、外れ値（極端な値）、表記ゆれなどのノイズが含まれているからです。

データの前処理とは、このような「汚れたデータ」を機械学習モデルが扱いやすい形にクリーニング・変換する工程のことです。料理に例えると、食材を洗って皮をむいて切る「下ごしらえ」に当たります。

G検定では、以下のような前処理の手法が頻出します。

押さえておくべき前処理の手法

1. 欠損値の処理

データに空欄がある場合の対処法です。

手法	内容	使いどころ
リストワイズ除去	欠損がある行をまるごと削除	欠損が少ない場合
平均値・中央値で補完	欠損箇所を統計量で埋める	数値データの場合
最頻値で補完	最も多い値で埋める	カテゴリデータの場合

試験のポイント: 「リストワイズ除去はデータが大量に減るリスクがある」という点が問われやすいです。

2. 外れ値の処理

データの中に極端に大きい・小さい値がある場合、モデルの学習を歪めてしまいます。外れ値を検出する方法（箱ひげ図、標準偏差を用いる方法など）と、その対処法（除去する、変換するなど）を押さえましょう。

3. 特徴量スケーリング

機械学習モデルでは、特徴量ごとに値のスケール（単位・大きさ）が異なると、学習がうまくいかない場合があります。これを揃える処理がスケーリングです。

手法	計算方法	変換後の範囲
標準化（Standardization）	(値 − 平均) ÷ 標準偏差	平均0、標準偏差1
正規化（Min-Maxスケーリング）	(値 − 最小値) ÷ (最大値 − 最小値)	0〜1の範囲

試験のポイント: 標準化と正規化の違いは頻出です。「標準化 → 平均0・標準偏差1」「正規化 → 0〜1」とセットで覚えましょう。

特徴量エンジニアリングとは？

特徴量エンジニアリングとは、元のデータから機械学習モデルが学習しやすい「特徴量」を新しく作り出す工程のことです。

たとえば「生年月日」というデータがあったとき、そのままではモデルが扱いにくいですが、ここから「年齢」という新しい特徴量を計算すれば、モデルが理解しやすくなります。

代表的な手法

ワンホットエンコーディング: カテゴリデータ（例: 「東京」「大阪」「福岡」）を数値に変換する手法です。各カテゴリに対して0/1の列を作ります。文系の方には「ダミー変数」と言った方がピンとくるかもしれません。

ラベルエンコーディング: カテゴリに番号を振る手法です（例: 東京→0、大阪→1、福岡→2）。ただし、番号の大小に意味が生まれてしまうため、順序のないカテゴリには向きません。

対数変換: 値の偏りが大きいデータに対して対数（log）を取ることで、分布をなだらかにする手法です。

試験のポイント: ワンホットエンコーディングとラベルエンコーディングの違い・使い分けは頻出テーマです。「順序がないカテゴリにはワンホット」と覚えましょう。

次元削減との関係

特徴量が多すぎると、計算コストが増えたり過学習の原因になったりします。これを次元の呪いと呼びます。G検定では、次元削減の代表的手法として以下が問われます。

主成分分析（PCA）: データの分散が最大になる方向を見つけて、少ない次元に情報を圧縮する手法
特徴量選択: モデルに寄与しない特徴量を取り除く手法

「次元の呪い」というキーワードと、PCAの基本的な考え方はセットで押さえておきましょう。

文系の私がつまずいたポイント

正直に言うと、私が一番混乱したのは**「標準化」と「正規化」の使い分け**でした。どちらも「スケーリング」の仲間なのに名前が似ていて、最初はごちゃごちゃになりました。

私の覚え方は、「標準化はひょう（= 平均）を0にする」です。ダジャレっぽいですが、こういう語呂合わせが試験本番では意外と効きます。

また、ワンホットエンコーディングは「統計学のダミー変数と同じ」と気づいてからスッキリ理解できました。文系の方は統計学の知識と結びつけると理解が早いかもしれません。

まとめ

G検定のデータ前処理・特徴量エンジニアリング分野は、覚える量は多くないものの、用語の違いを正確に理解しているかが問われます。特に以下の3点は確実に押さえておきましょう。

欠損値処理の手法と使い分け（リストワイズ除去、平均値補完など）
標準化と正規化の違い（平均0・標準偏差1 vs 0〜1の範囲）
ワンホットエンコーディングとラベルエンコーディングの違い（順序の有無）

この分野は「暗記」より「理解」が大事です。それぞれの手法が「なぜ必要なのか」を意識しながら学習すると、応用問題にも対応できます。