はじめに
本記事は、Googleデータアナリティクスのプロフェッショナル認定証のプログラムより、参照させて頂いています。興味を持った方は、是非受講してみてください。

ワイドデータ
ワイドデータでは、 すべてのデータ対象が 1 つの行を持ち、 複数の列で、さまざまな対象の 属性の値を保持します。 ここに表計算ソフトの ワイドデータがあります。 以前、ラテン諸国とカリブ海諸国の 人口に関するこのデータについて ご説明しました。 このデータセットでは、 各行が 1 つの国に関する すべての人口情報を示しています。 各列には、異なる年の人口が含まれます。

- ワイドデータでは、異なる列を簡単に識別し、 すばやく比較することができます。 この例では、データが国ごとに アルファベット順に並んでいるので、 各列の値を確認するだけで、 アンティグア・バーブーダ、 アルバ、バハマの年間人口を 比較することができます。

- また、ワイドデータでは、 異なる時期の国の人口を 簡単に検索し、 比較することができます。 例えば、データを並べ替えると、 2010 年にはブラジルの人口が最も多く、 2013 年には イギリス領ヴァージン諸島の人口が 最も少ないことがわかります。

ロングデータ
データはもはや 年ごとの列に整理されていません。 すべての年が 1 つの列になっており、 アルゼンチンなどの各国は、 データの年ごとに 複数の行に表示されています。 これが一般的なロングデータです。

ロングデータとは、各行が対象ごと 1 時点のデータで、 各対象は複数の行に データを持つことになります。 このスプレッドシートは、各年ごとに 人口データを表示しています。 ここでは、最初にアンティグア・ バーブーダが表示されています。
- ロングデータは、観察したい各時点で 対象ごとに複数の変数がある場合などに、 データを保存、 整理するのに最適な形式です。
- ロングデータ形式では、 より少ない列の数で すべてのデータを保存し、 分析することができます。
- さらに、人口の平均年齢のような新規の 変数を追加しても、足す列は 1 つだけです。 もしワイドデータ形式を使用していたら、 各年ごとに 10 の列が 必要だったでしょう。 ロングデータの形式なら、 すべてがコンパクトにまとまります。
もし、どちらの形式を使うべきか 迷ったときの答えは 「場合による」としか言えません。ワイドデータをロングデータ形式に 変換しなければならない場合もあれば その逆の場合もあります。 実際の仕事では、おそらく両方の フォーマットを使うことになるでしょう。
