KDIX CS Advent Calendar 2025

Microsoft Officeファイルの正体：docx・xlsx・pptxはZIPでできている

Last updated at 2025-12-19Posted at 2025-12-19

はじめに

Word（.docx）や PowerPoint（.pptx）って、毎日のように使いますよね。
レポートを書いたり、スライドを作ったり、「とりあえず保存」で何も考えずに閉じていると思います。

でも、ふとこんなことを思いました。

この「x」って何？

.docx、.xlsx、.pptx。
みんな当たり前のように付いているけど、正直あまり気にしたことがありませんでした。

気になったので、試しに Word ファイルの拡張子を .zip に変えてみたところ──
普通に展開できました。

「あれ？これOfficeファイルじゃなくて、ZIPじゃない？」

中を覗いてみると、そこには大量の XML ファイルと、それっぽいフォルダ構成。
どうやら、Microsoft Office のファイルは思っていたよりずっと素直な作りをしているようです。

この記事では、
「Officeファイルの拡張子に付く『x』の正体」や
「実際に中身を開いてみると何が入っているのか」
を、深刻になりすぎず、手を動かしながら見ていきます。

普段何気なく使っているファイルですが、
中身を知るとちょっとだけ楽しくなります。

とりあえず .zip にしてみる

理屈は後回しにして、まずは手を動かします。

今回は実験用として、hogehoge.docx という Word ファイルを1つ作成しました。
中には短い文章と、ちょっとしたネタ文、そして画像を1枚入れています。

※ 文章・箇条書き・画像を1つずつ入れた実験用ファイル

次に、この hogehoge.docx の拡張子を .zip に変更してみます。

拡張子を変更すると、
「本当に変えてもいいんだな？」
といった警告が表示されます。

※ 「.docx を .zip に変更してもよろしいですか？」という警告

今回は実験なので、気にせずそのまま進みます。

拡張子を変更したファイルは、Finder（またはエクスプローラー）上では
通常の ZIP ファイルと同じように扱われます。

※ hogehoge.docx → hogehoge.zip に変わった状態

では、この ZIP ファイルを展開してみます。
GUI でダブルクリックしてもよいですが、今回は分かりやすく unzip コマンドを使ってみました。

unzip hogehoge.zip

※ document.xml や image1.png などが展開されているのが分かる

出てきたファイル一覧を見ると、
word/document.xml や word/media/image1.png など、
それっぽい名前のファイルが並んでいます。

最後に、展開されたフォルダの中身を Finder で確認してみます。

※ Word ファイルの中身は XML とフォルダで構成されている

word/media フォルダの中には、
先ほど Word に挿入した画像がそのまま保存されていました。

つまり、.docx ファイルの正体は
Office 専用のブラックボックスな形式ではなく、
XML ファイルと画像を ZIP でまとめたもの
だということが分かります。

document.xml を開いてみる（情報量が多い）

というわけで、満を持して word/document.xml を開いてみました。

……正直、最初の感想はこれです。

情報量が多い。

冒頭から、xmlns が大量に並んでいて、
「うわ、なんかすごいの来たな」という気持ちになります。

ただ、ここで全部を理解しようとする必要はありません。
大事なのは、もっと下の方です。

実際の文章はちゃんと読める

XMLをスクロールしていくと、見覚えのある文字列が出てきます。

<w:t>Hello World</w:t>

ありました。
Wordで最初に入力した「Hello World」です。

さらに探すと、

<w:t>hogehoge</w:t>
<w:t>は世界を救う（かもしれない）</w:t>

これもそのまま入っています。

つまり、

タグは多い
でも中身のテキスト自体はそのまま保存されている

ということがわかります。

画像もちゃんと「構造」で管理されている

document.xml の後半には、画像に関する記述もありました。

<a:blip r:embed="rId4">

この rId4 は、
word/_rels/document.xml.rels に書かれている対応関係を使って、
word/media/image1.png と結び付けられています。

つまり、

document.xml は「文章と構造」
media フォルダには「実体の画像ファイル」
rels ファイルが「それらをつなぐ役」

という役割分担になっています。

イメージは「郵便局のデジタルアドレス」

この「直接ファイル名を指定せずに、IDを経由する」という仕組み、一見すると回りくどいですよね。
でもこれ、「郵便局のデジタルアドレス（住所コード）」のようなものだと考えるとスッキリします。

住所を「7桁の英数字」で表す「デジタルアドレス」というサービスがあります。

私（document.xml）：「荷物を送りたいけど、相手の本当の住所を書くのは大変だし、間違えそう……。せや、『ID: rId4』 宛てって書いておこう」
郵便局のデータベース（.rels）：「はいはい、『rId4』ですね。えーっと……（検索中）……あ、このIDの本当の住所は 『word/media/image1.png』 ですね」
実際の家（画像ファイル）：「荷物届いたー」

という流れです。

なぜこんなことをするの？

こうしておくと、もし「画像の保存場所（本当の住所）」が変わっても、仲介役のデータベース（.rels）だけ書き換えれば済むからです。

本文（document.xml）の方には「ID: rId4」としか書かれていないので、
「画像の名前が変わったから、本文のタグを全部書き直さなきゃ！」
という事故が起きなくなります。

Officeファイルの中では、こうやって「本文」と「リソース」を切り離すことで、データの管理を楽にしているわけですね。

この「x」の正体：Office Open XML

ここまでで、

.docx は ZIP として展開できる
中身は XML と画像ファイルで構成されている

ということが分かりました。

では、拡張子に付いているこの 「x」 は一体何なのかというと、
これは Office Open XML というファイル形式を表しています。

Office Open XML とは何者か

Office Open XML（通称 Open XML）は、

Office 文書を XML ベースで表現するための標準規格

です。

難しそうに聞こえますが、要するに、

文書の中身は XML で書く
それを ZIP でまとめる
それを .docx / .xlsx / .pptx として扱う

というだけの話です。

実際、今回見てきた構成はまさにこれでした。

文章 → word/document.xml
画像 → word/media/
設定やスタイル → それぞれ別の XML
全体 → ZIP

なぜこんな形式になったのか

昔の Word ファイル（.doc）は、
中身がほぼブラックボックスなバイナリ形式でした。

中身が見えない
壊れると復旧が大変
他のツールから扱いづらい

という、なかなかハードな世界です。

それに対して Office Open XML は、

構造がはっきりしている
中身を分解できる
拡張しやすい
他のツールとも連携しやすい

という特徴があります。

「巨大な Word ファイル」ではなく、
「部品を組み合わせた文書」
として扱えるようになった、というイメージです。

x が付く理由

ここでようやく、拡張子の話に戻ります。

.doc → 従来のバイナリ形式
.docx → Office Open XML 形式

この 「x」 は、
「XML ベースの新しい形式ですよ」という目印です。

普段は意識しなくても問題ありませんが、
中身を覗いてみると、この「x」がちゃんと仕事をしていることが分かります。

正直なところ

普段 Word を使っているだけだと、
Office Open XML の存在を意識することはほとんどありません。

でも、

ZIPとして展開できる
XMLとして中身を読める

という事実を知っているだけで、
Office ファイルを見る目が少し変わる気がします。

（おまけ）AIに読ませるならPDFよりOfficeファイルの方が良い？

ここまで Office ファイルの中身を見てきて、
ふとこんなことを思いました。

これ、AIに読ませるなら PDF より Word や PowerPoint の方が良いのでは？

PDFは「見た目の完成形」

PDFはとても優秀な形式です。

どの環境でも同じ見た目
レイアウトが崩れない
印刷に強い

ただし、その代わりに
「意味構造」より「見た目」を優先しています。

そのため、

見出しと本文の区別が分かりにくい
段組みや図表で順序が崩れやすい
文章の構造を機械的に理解するのが難しい

といった問題が起きがちです。

Officeファイルは「構造が残っている」

一方、今回見てきた .docx や .pptx は、

文章は XML
画像は別ファイル
関係性は rels で管理

というように、
「これは文章」「これは画像」「これは構造」
が明確に分かれています。

つまり、

スライド単位
段落単位
箇条書き単位

といった情報を、
比較的そのまま機械が扱いやすい形で持っています。

じゃあOffice最強？というと、そうでもない

もちろん、Office ファイルなら何でも OK というわけではありません。

画像だけのスライド
テキストが画像化されている資料
レイアウト重視で中身がスカスカなスライド

こういった場合は、
Office 形式でも AI にとっては厳しいです。

ただ、

テキスト主体
構造を意識して作られた資料

であれば、
内容理解や要約という点では、PDFよりOfficeファイルの方が有利な場面もある
と感じました。

まとめると

PDFは「人間に見せる完成形」
Officeファイルは「構造が残った作業データ」

という違いがあります。

用途によって形式を選ぶ、
という視点を持っておくと、
資料の扱い方が少し楽になるかもしれません。

まとめ

普段何気なく使っている Word や PowerPoint のファイルですが、
中身を覗いてみると、意外と素直な構造をしていることが分かりました。

.docx や .pptx は ZIP ファイル
中身は XML と画像ファイルで構成されている
拡張子の「x」は Office Open XML の「x」

特別な知識がなくても、
拡張子を変えて展開するだけで中身を確認できる、というのは
なかなか面白いポイントです。

普段は意識する必要はありませんが、
「Officeファイルは構造化されている」ということを知っているだけで、

ファイルの扱い方
データとしての見方
AIや他ツールとの付き合い方

が、少しだけ変わるかもしれません。

身近なファイルでも、
たまには中身を覗いてみると意外な発見があります。

※この記事は macOS で検証しています

参考リンク

Office Open XML の構造についての解説
https://www.maruoka-digital.jp/blogcontent/3106142055/
Office Open XML を実際に分解して解説している記事（Qiita）
https://qiita.com/sky_y/items/2ab80adfb7a998e47239

Advent Calendar

本記事は 「KDIX CS Advent Calendar 2025」 に参加しています。
他にも面白い記事がたくさん投稿されているので、ぜひチェックしてみてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up