データ処理をする場合、良いデータ、悪いデータ、普通のデータが問題になることがある。
その前に、業務目標(business goal)または最終目標(goal)が大事。
あるいは、制約条件(constraints)が大事。分野によっては要件(requirements)ということもある。
AとBの比較をしたいのか、
A,B,C,D,Eを順番にならべたいのか。
その際に、同順位を認めるのか
同順位は3つまで許容するか。
何が一番大きなシェアを占めているのか(上記、A,B,C,d,Eは何かがわかっている場合)
シェアは50%までわかればいいか
シェアは90%までわかればいいか
シェアは99%までわからないといけないか
実害のある要因を1つでもいいからみつけたいのか
想定できる半分以上の要因を洗い出したいのか
想定できる90%の要因を洗い出したいのか
想定できる99%の要因を洗い出したいのか
期待値の精度は1桁でいいか
期待値の精度は2桁でいいか
期待値の精度は3桁必要か
good bad逆転
ある目的ではgood dataが、別の目的ではbad dataであり、
ある目的のbad dataが、別の目的ではgood dataである。
#生与件(raw data)
現地、現物で得た一次情報が大事。
誰かが、何かの目的で篩にかけた情報は、悪いデータ。
計算する上では良いデータのように見えても、価値はぐっと落ちる。
どういう測定方法をとると、どういうばらつきになるか。
#能動測定
受動測定か、能動測定か。
能動測定の場合には、どのような測定方法をとったかがないとデータの価値がない。
データそのものではなく、データの測定方法がないデータが悪いデータ。
まとめ
良いデータとは生データ。
悪いデータとは測定方法がないデータ。
普通のデータは、社会的な制度で作成し、公開しているデータ。
良いデータであるか、悪いデータであるかは目標による。
最後までおよみいただきありがとうございました。
いいね 💚、フォローをお願いします。
Thank you very much for reading to the last sentence.
Please press the like icon 💚 and follow me for your happy life.