「整然データ」の概念が意外に知られていない?
- インフォマティカ・ジャパン株式会社(インフォマティカ)のNIEKAWAと申します。
- 弊社は、法人・団体のお客さまに「 データマネジメント 」(投資をして得た財産としてのデータの価値を発揮させる活動 / DAMA International 2017=2018: 40)のためのソリューションを提供しています。
- 近年ますます「データマネジメント」に関心がある方々が増えてきていると認識しています。
- しかし先日、あるパートナー企業の方と仕事をしていて、データベース技術者でない方々に「データマネジメント」の基本にある概念が意外に知られていないのでは、と思う節がありました。
- そこで本記事では「データマネジメント」の基本になっている概念の一例として「 整然データ 」を紹介させていただきます。
- 「もう知っているよ」という方は読み飛ばしてください。
「整然データ」の概念
- 「整然データ」 tidy data とは(主にコンピューターによる)分析が容易になるように構造を整理したデータをいいます(Wickham 2014: 1)。
- 従来「データベース形式」「リスト形式」(田中 2021: 138)などの概念があったところ、データ科学者 data scientist のハドリー・ウィッカム氏 Dr. Hadley Wickham が関連する概念を整理して提唱し、普及したようです。
- 「整然データ」には下記の四つの特徴があります(注1)(西原 2017: 449)。
- (1) 個々の値 value が一つのセル cell を成す。
- (2) 個々の変数 variable が一つの列 column を成す。
- (3) 個々の観測 observation が一つの行 row を成す。
- (4) 個々の観測ユニットの類型 type of observational unit が一つの表 table を成す。
- 私は(3)の「観測」がピンときていませんでしたが、「下の行に順番に書き足していけるような構造」と理解することにしています。
- ごく単純な例としては、次のようなデータです。
- 対義語は「 雑然データ 」 messy data です。
- ごく単純な例としては、次のようなデータです。
- 「整然データ」は、コンピューターに分かりやすい一方で、人間に分かりにくい場合があります。
- 例えば、データを集計する基本的な形である 分割表 (クロス集計表)は、行に変数の意味を持たせるため、「整然データ」ではなく「雑然データ」に分類されます(馬場 2018: 118-9)。
- データベース技術に詳しい方には、関係データベース relational database の 正規化 normalization を連想する方も多いかと思いますが、とりあえず「両者は異なった概念」(西原 2017: 453)、「整然データ」は正規化よりも基本的な概念と捉えてよいと考えます。
「整然データ」の先にあるデータ利活用
- 「整然データ」は、コンピューターによる分析が容易であり、「整然データ」の整備が「データマネジメント」の一角を占めているのは間違いありません。
- 大規模なシステムを用いない、表計算ソフトウエアのMicrosoft Excelや、独自に開発したPythonスクリプトで十分な業務でも、最初の入力を「整然データ」にしておくと、後の計算、出力の工程で分析ツールを最大限に活用でき、データの追加にも対応しやすくなります(田中 2021: 137; 馬場 2018: 119)。
- しかし、上記の「雑然データ」の例のように、業務のガバナンスが行き届かないとつい「整然データ」を逸脱した入力をしてしまいます。
- そのため、組織全体でデータを利活用するようになると「 データ品質 」が問題になってきます。
- 「データマネジメント」の事実上の標準である DAMA-DMBOK2 でDAMA Internationalは 「データ品質」が低下していくことを前提に の八つの評価軸で「データ品質」を評価するよう提案しており、うち「一貫性」(類型が一貫しているか)と「整合性」(重複や欠落がないか)とは、データが整然とした状態を保っているかに関わっています(DAMA International 2017=2018: 491-2)。
- 「データ品質」については、 弊社の2021年Advent Calendar の後続の記事もご覧ください。
[注]
- (注1)ウィッカム氏は原著論文(2014: 4)で(2)~(4)を挙げていますが、西原史暁(にしはら・ふみあき)氏の解説(2017: 449)によると、ウィッカム氏は2017年の入門書で(1)を加えているそうです。
[文献]
- 馬場真哉, 2018,『Pythonで学ぶあたらしい統計学の教科書』翔泳社. https://www.shoeisha.co.jp/book/detail/9784798155067
- DAMA International, 2017, DAMA-DMBOK: Data Management Body of Knowledge (2nd Edition) , Basking Ridge: Technics Publications.(DAMA日本支部・Metafindコンサルティング株式会社訳, 2018,『データマネジメント知識体系ガイド 第二版』日経BP社.) https://www.nikkeibp.co.jp/atclpubmkt/book/18/270160/
- 西原史暁, 2017,「整然データとは何か」『情報の科学と技術』67(9): 448-53. https://www.jstage.jst.go.jp/article/jkg/67/9/67_448/_article/-char/ja
- 田中亨, 2021,『Excelの本当に正しい使い方』日経BP. https://www.nikkeibp.co.jp/atclpubmkt/book/21/283960/
- Wickham, Hadley, 2014, “Tidy Data,” Journal of Statistical Software , 59(10): 1-23. https://www.jstatsoft.org/article/view/v059i10
- 西原氏が https://id.fnshr.info/2017/01/09/trans-tidy-data/ で日本語訳を公開しています。