「文字化け」のナゾを解く！文字コードとUTF-8を素人でもわかるように解説

Last updated at 2025-12-10Posted at 2025-12-10

🥇 はじめに：文字化けのナゾを解き明かそう！

メールやファイルを開いたときに、突然「遧?骭」のような意味不明な記号の羅列を見たことはありませんか？

これが「文字化け」です。

この記事では、文字コードや文字符号といったITの専門用語を、かみ砕いて解説します。

私たちがパソコンやスマートフォンで文字を入力・閲覧できるのは、「文字」が「数字」に変換されているおかげです。

コンピュータは、電気のON/OFF（0と1）しか理解できません。そのため、「この文字にはこの数字を割り当てる」という世界共通の「約束事」が必要になります。この約束事こそが文字コードです。

技術的には、「文字コード」と「文字符号化方式」は少し違います。

ざっくり理解するためのイメージ

文字コード（文字集合）: 文字と数字の対応表そのもの。いわば「辞書」。
- 例：「あ」は 3042、「A」は 0041、という対応を決めた表。
文字符号化方式（エンコーディング）: その対応表をコンピュータが実際に処理するためのルール。いわば「翻訳ルール」。
- 例：この辞書を使って、この順番で、このサイズで数字に変換しよう！

この両方を総称して、一般的に「文字コード」と呼ぶことが多いです。この記事でも、混乱を防ぐため、特別な場合を除き「文字コード」として解説を進めます。

ポイント
文字コードとは、コンピュータが文字を理解するための「翻訳辞書」だと思ってください。

世の中にはさまざまな文字コードが存在します。それぞれの「辞書」には特徴があり、文字化けの原因になることもあります。

ASCIIは、最もシンプルで基本的な文字コードです。現代でも広く使われています。

Shift JIS (SJIS) は、日本独自に発展した文字コードであり、主に日本のコンピュータ環境で使用されてきました。

現代において、IT業界のスタンダードとなっているのが Unicode です。

Unicodeは、世界中のあらゆる文字（日本語、中国語、アラビア語、絵文字など）を一つの巨大な辞書にまとめよう！というプロジェクトから生まれました。

【漢字の対応：なぜ世界共通にできたか？】
日本語の漢字、中国語の漢字、韓国語の漢字には、見た目は同じでも意味が異なるもの、逆に見た目が少し違ってもルーツが同じものがあります。Unicodeでは、これらを整理し、同じルーツを持つ漢字を「一つの文字」として扱うことで、世界共通の辞書として成立させました。（これをCJK統合漢字と呼びます）

そして、このUnicodeの辞書を使うための「翻訳ルール（符号化方式）」のデファクトスタンダードが UTF-8 です。

【重要！】UTF-8が現代の標準です

新しくファイルやシステムを構築するなら、UTF-8を使ってください。UTF-8は世界の共通語であり、文字化けを最も防げる現代のベストプラクティスといえます。

なぜ文字化けが発生するのか？そのメカニズムを解説します。

文字化けは、以下のシンプルな理由で起こります。

使う辞書が違うと、同じ数字データでもまったく別の意味の文字として解釈されてしまうのです。

状況	「文字」の数字データ（仮）	受信者が使うルール	結果
送信者	Shift JISの数字データ	Shift JIS	正しく「文字」と表示される
受信者	Shift JISの数字データを受け取る	UTF-8	UTF-8のルールで変換した結果、「遧?骭」のような意味不明な文字として表示されてしまう

特に注意が必要なケース

文字化けは、特に以下の状況で発生しやすいです。

シーン	文字コードは何を使っているか？	対処法
1. 古いシステムからCSVファイルをダウンロードした	Shift JIS のことが多い	テキストエディタやExcelで開く際、エンコードをShift JISに指定して開く
2. Webサイトのお問い合わせフォームの送信文字が化けた	サーバー側の設定が UTF-8 になっていない可能性がある	開発担当者にUTF-8への統一を依頼する
3. 外国語対応のシステムなのに文字化けした	Unicodeに対応していないか、UTF-8以外のルールを使っている	システム全体をUTF-8で統一する