ワンホットエンコーディングとは？ 🤔

Posted at 2025-07-04

この記事では、機械学習におけるワンホットエンコーディングについて、基礎から具体的なPythonコードまで詳しく解説します。カテゴリカルデータを数値データに変換する重要な手法をマスターしましょう！ ✨

ワンホットエンコーディング（One-Hot Encoding）は、カテゴリカルデータ（名義尺度データとも呼ばれます）を機械学習アルゴリズムが理解できる数値データに変換する手法の一つです。

例えば、「色」というカテゴリカルデータがあったとします。

これらの文字データをそのまま機械学習モデルに入力することはできません。そこで、ワンホットエンコーディングの出番です！

多くの機械学習アルゴリズムは、数値データを入力として想定しています。カテゴリカルデータを数値に変換しないと、モデルが正しく学習できない、あるいは誤った解釈をしてしまう可能性があります。

例えば、「赤」を1、「青」を2、「緑」を3と数値に置き換えた場合を考えてみましょう。
この場合、機械学習モデルは「青」が「赤」の2倍、「緑」が「赤」の3倍のような、順序関係や大小関係があると誤解してしまう可能性があります。しかし、実際には色にそのような関係性はありませんよね。

ワンホットエンコーディングは、このような誤解を防ぎ、カテゴリ間の関係を正しくモデルに伝えるために利用されます。

ワンホットエンコーディングの仕組み ⚙️

ワンホットエンコーディングでは、カテゴリの数だけ新しい列（特徴量）を作成し、該当するカテゴリには「1」を、それ以外のカテゴリには「0」を割り当てます。

例として、「色」のデータをワンホットエンコーディングしてみましょう。

これをワンホットエンコーディングすると、以下のようになります。

このように、各カテゴリがそれぞれの新しい列で「1」または「0」で表現されるため、機械学習モデルはカテゴリ間の順序関係を誤解することなく、各カテゴリの存在を認識できます。

ワンホットエンコーディングには非常に便利な側面がある一方で、いくつかのデメリットも存在します。特に注意すべきは「次元の呪い」です。

次元の呪い (Curse of Dimensionality):
カテゴリの種類が多い場合（例えば、都道府県名や郵便番号など）、非常に多くの新しい列が生成されてしまい、データ全体の次元数が増大します。これにより、以下の問題が発生する可能性があります。
- 計算コストの増加: 計算量が増え、モデルの学習時間が長くなります。
- メモリ使用量の増加: 多くのメモリを消費します。
- 過学習のリスク: 次元数が増えることで、モデルが訓練データに過剰に適合（過学習）しやすくなることがあります。

これで、ワンホットエンコーディングの基本的な概念からPythonでの実装方法まで理解できたのではないでしょうか。カテゴリカルデータを効果的に活用して、より良い機械学習モデルを構築しましょう！ 🚀