LoginSignup
0
0

More than 1 year has passed since last update.

良いデータ、悪いデータ、普通のデータ(2)

Posted at

データに関する記事を書こう!

テーマ2『データに関する記事を書こう!』参加記事です。

良いデータ、悪いデータ、普通のデータ

投稿日 2019年05月02日 に投稿し、1089 views でいいねもstockともに0

書き直し

良いデータ

良いデータというものに会ったことがあるだろうか。

自分が主張したいことを、主張してくれるデータがよいデータだろうか。

それは、「都合がいいデータ」であっても、「良いデータ」かどうかはわからない。

「良いデータ」とは、複数の立場、できれば三つ以上の立場にとって、価値があるデータだと仮定しよう。

悪いデータ

「悪いデータ」というものがあるだろうか。「都合の悪いデータ」というのは、ときどき思い当たるかもしれない。組織にとって都合の悪いデータは、しばしば抹殺する人がいて、出会ったことがないかもしれない。

悪いデータには、いろいろ思い当たることがある。

重要なデータに欠落がある。

例えば、過去10年のデータといいながら、2年前の7年前のデータがないとか。全体の2割以上の欠損があるデータは悪いデータと言えるかもしれない。

ただし、火災、戦争など、データ所有者の意図しない欠損は、「悪いデータ」と決めつけるとかわいそうなことがあるかもしれない。

明らかな偏りがあり、その理由がわかりにくいデータ

ある調査では、無作為抽出でAとBの選好が50%対50%だった記録があった。
それとは別にどういう抽出法を採用したかをかかずに、AとBの選好が70%対30%という記録があったとする。

抽出法などで比較できれば、貴重なデータなのに、抽出法がわからないと分析に用いることができず、無視せざるを得ないデータは悪いデータに分類しておこう。

普通のデータ

良いデータ、悪いデータ以外を、普通のデータに分類する。

良いデータかどうかの判定は難しく、悪いデータの判定も場合によっては難しい。

ひとまず、どんなデータも普通のデータという仮定のもとに分析するとよいかもしれない。

添削

元記事の評価がよくない理由を検討する。なお、上の文章は、下記検討の結果、書き直したものである。

データ処理をする場合、良いデータ、悪いデータ、普通のデータが問題になることがある。
その前に、業務目標(business goal)または最終目標(goal)が大事。
あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。

「良いデータ、悪いデータ、普通のデータが問題になることがある。」

と書いている。具体的ではない。

「良いデータ」だと思ったことが一度もない人は、ここで脱落。
「悪いデータ」だと思ったことが一度もない人は、ここで脱落。
「普通のデータ」だと思ったことが一度もない人は、ここで脱落。

「その前に」って書くくらいなら、それを最初に書けば。

こういう文書を書く人は好きになれない。あ、自分だ。

「あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。」

断定するほどのことじゃなくね。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0