データに関する記事を書こう!
テーマ2『データに関する記事を書こう!』参加記事です。
良いデータ、悪いデータ、普通のデータ
投稿日 2019年05月02日 に投稿し、1089 views でいいねもstockともに0
書き直し
良いデータ
良いデータというものに会ったことがあるだろうか。
自分が主張したいことを、主張してくれるデータがよいデータだろうか。
それは、「都合がいいデータ」であっても、「良いデータ」かどうかはわからない。
「良いデータ」とは、複数の立場、できれば三つ以上の立場にとって、価値があるデータだと仮定しよう。
悪いデータ
「悪いデータ」というものがあるだろうか。「都合の悪いデータ」というのは、ときどき思い当たるかもしれない。組織にとって都合の悪いデータは、しばしば抹殺する人がいて、出会ったことがないかもしれない。
悪いデータには、いろいろ思い当たることがある。
重要なデータに欠落がある。
例えば、過去10年のデータといいながら、2年前の7年前のデータがないとか。全体の2割以上の欠損があるデータは悪いデータと言えるかもしれない。
ただし、火災、戦争など、データ所有者の意図しない欠損は、「悪いデータ」と決めつけるとかわいそうなことがあるかもしれない。
明らかな偏りがあり、その理由がわかりにくいデータ
ある調査では、無作為抽出でAとBの選好が50%対50%だった記録があった。
それとは別にどういう抽出法を採用したかをかかずに、AとBの選好が70%対30%という記録があったとする。
抽出法などで比較できれば、貴重なデータなのに、抽出法がわからないと分析に用いることができず、無視せざるを得ないデータは悪いデータに分類しておこう。
普通のデータ
良いデータ、悪いデータ以外を、普通のデータに分類する。
良いデータかどうかの判定は難しく、悪いデータの判定も場合によっては難しい。
ひとまず、どんなデータも普通のデータという仮定のもとに分析するとよいかもしれない。
添削
元記事の評価がよくない理由を検討する。なお、上の文章は、下記検討の結果、書き直したものである。
データ処理をする場合、良いデータ、悪いデータ、普通のデータが問題になることがある。
その前に、業務目標(business goal)または最終目標(goal)が大事。
あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。
「良いデータ、悪いデータ、普通のデータが問題になることがある。」
と書いている。具体的ではない。
「良いデータ」だと思ったことが一度もない人は、ここで脱落。
「悪いデータ」だと思ったことが一度もない人は、ここで脱落。
「普通のデータ」だと思ったことが一度もない人は、ここで脱落。
「その前に」って書くくらいなら、それを最初に書けば。
こういう文書を書く人は好きになれない。あ、自分だ。
「あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。」
断定するほどのことじゃなくね。