9
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

インフォマティカAdvent Calendar 2021

Day 5

意外に知られていない? データマネジメントの基本「整然データ」の概念

Last updated at Posted at 2021-12-05

「整然データ」の概念が意外に知られていない?

  • インフォマティカ・ジャパン株式会社(インフォマティカ)のNIEKAWAと申します。
  • 弊社は、法人・団体のお客さまに「 データマネジメント 」(投資をして得た財産としてのデータの価値を発揮させる活動 / DAMA International 2017=2018: 40)のためのソリューションを提供しています。
  • 近年ますます「データマネジメント」に関心がある方々が増えてきていると認識しています。
  • しかし先日、あるパートナー企業の方と仕事をしていて、データベース技術者でない方々に「データマネジメント」の基本にある概念が意外に知られていないのでは、と思う節がありました。
  • そこで本記事では「データマネジメント」の基本になっている概念の一例として「 整然データ 」を紹介させていただきます。
  • 「もう知っているよ」という方は読み飛ばしてください。

「整然データ」の概念

  • 「整然データ」 tidy data とは(主にコンピューターによる)分析が容易になるように構造を整理したデータをいいます(Wickham 2014: 1)。
  • 従来「データベース形式」「リスト形式」(田中 2021: 138)などの概念があったところ、データ科学者 data scientist のハドリー・ウィッカム氏 Dr. Hadley Wickham が関連する概念を整理して提唱し、普及したようです。
  • 「整然データ」には下記の四つの特徴があります(注1)(西原 2017: 449)。
    • (1) 個々の値 value が一つのセル cell を成す。
    • (2) 個々の変数 variable が一つの列 column を成す。
    • (3) 個々の観測 observation が一つの行 row を成す。
    • (4) 個々の観測ユニットの類型 type of observational unit が一つの表 table を成す。
  • 私は(3)の「観測」がピンときていませんでしたが、「下の行に順番に書き足していけるような構造」と理解することにしています。
  • ごく単純な例としては、次のようなデータです。

スライド1.PNG

  • 対義語は「 雑然データmessy data です。
  • ごく単純な例としては、次のようなデータです。

スライド2.PNG

  • 「整然データ」は、コンピューターに分かりやすい一方で、人間に分かりにくい場合があります。
  • 例えば、データを集計する基本的な形である 分割表 (クロス集計表)は、行に変数の意味を持たせるため、「整然データ」ではなく「雑然データ」に分類されます(馬場 2018: 118-9)。
  • データベース技術に詳しい方には、関係データベース relational database の 正規化 normalization を連想する方も多いかと思いますが、とりあえず「両者は異なった概念」(西原 2017: 453)、「整然データ」は正規化よりも基本的な概念と捉えてよいと考えます。

「整然データ」の先にあるデータ利活用

  • 「整然データ」は、コンピューターによる分析が容易であり、「整然データ」の整備が「データマネジメント」の一角を占めているのは間違いありません。
  • 大規模なシステムを用いない、表計算ソフトウエアのMicrosoft Excelや、独自に開発したPythonスクリプトで十分な業務でも、最初の入力を「整然データ」にしておくと、後の計算、出力の工程で分析ツールを最大限に活用でき、データの追加にも対応しやすくなります(田中 2021: 137; 馬場 2018: 119)。
  • しかし、上記の「雑然データ」の例のように、業務のガバナンスが行き届かないとつい「整然データ」を逸脱した入力をしてしまいます。
  • そのため、組織全体でデータを利活用するようになると「 データ品質 」が問題になってきます。
  • 「データマネジメント」の事実上の標準である DAMA-DMBOK2 でDAMA Internationalは 「データ品質」が低下していくことを前提に の八つの評価軸で「データ品質」を評価するよう提案しており、うち「一貫性」(類型が一貫しているか)と「整合性」(重複や欠落がないか)とは、データが整然とした状態を保っているかに関わっています(DAMA International 2017=2018: 491-2)。
  • 「データ品質」については、 弊社の2021年Advent Calendar の後続の記事もご覧ください。

[注]

  • (注1)ウィッカム氏は原著論文(2014: 4)で(2)~(4)を挙げていますが、西原史暁(にしはら・ふみあき)氏の解説(2017: 449)によると、ウィッカム氏は2017年の入門書で(1)を加えているそうです。

[文献]

9
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?