LoginSignup
0
0

良いデータ、悪いデータ、普通のデータ

Last updated at Posted at 2019-05-02

データ処理をする場合、良いデータ、悪いデータ、普通のデータが問題になることがある。

その前に、業務目標(business goal)または最終目標(goal)が大事。

あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。

AとBの比較をしたいのか、
A,B,C,D,Eを順番にならべたいのか。
 その際に、同順位を認めるのか
 同順位は3つまで許容するか。

何が一番大きなシェアを占めているのか(上記、A,B,C,d,Eは何かがわかっている場合)
 シェアは50%までわかればいいか
 シェアは90%までわかればいいか
 シェアは99%までわからないといけないか

実害のある要因を1つでもいいからみつけたいのか
 想定できる半分以上の要因を洗い出したいのか
 想定できる90%の要因を洗い出したいのか
 想定できる99%の要因を洗い出したいのか

期待値の精度は1桁でいいか
 期待値の精度は2桁でいいか
 期待値の精度は3桁必要か

good bad逆転

ある目的ではgood dataが、別の目的ではbad dataであり、
ある目的のbad dataが、別の目的ではgood dataである。

#生与件(raw data)
現地、現物で得た一次情報が大事。

誰かが、何かの目的で篩にかけた情報は、悪いデータ。

計算する上では良いデータのように見えても、価値はぐっと落ちる。

どういう測定方法をとると、どういうばらつきになるか。

#能動測定
受動測定か、能動測定か。
 能動測定の場合には、どのような測定方法をとったかがないとデータの価値がない。

データそのものではなく、データの測定方法がないデータが悪いデータ。

まとめ

良いデータとは生データ。
悪いデータとは測定方法がないデータ。
普通のデータは、社会的な制度で作成し、公開しているデータ。
 良いデータであるか、悪いデータであるかは目標による。

最後までおよみいただきありがとうございました。

いいね 💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚 and follow me for your happy life.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0