0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

新米データサイエンティストの日常(架空)|pseudo編

Posted at

はじめに

今回は、「新米データサイエンティストの日常」シリーズの第9弾になります。新米データサイエンティストが躓きがちなテーマについて、先輩データサイエンティストと会話しているシーンをChatGPTに生成してもらいました。

第8弾はこちら↓


登場人物(架空)

  • 佐藤(新米データサイエンティスト・入社1年目)
  • 田中(先輩データサイエンティスト・入社5年目)

佐藤:
田中先輩、ちょっとよろしいでしょうか?

田中:
おっ、佐藤くん、どうした?

佐藤:
クライアントから提供されたデータを確認していたんですが、「pseudo」というカラムがあって、これが何を意味しているのか分からなくて…。データの中身を見ても、規則性があるようなないような感じで、判断がつかないんです。

田中:
「pseudo」か…なるほど。中身はどんな感じ?

佐藤:
ざっと見た感じ、文字列と数字が混ざっていて、例えば「abc123」とか「x9y8z7」みたいな値が入ってます。データのユニーク数をカウントしたら、ほぼすべてが異なる値みたいで…。

田中:
なるほどな。まず、「pseudo」っていう単語自体の意味は分かる?

佐藤:
ええと、「偽の」とか「疑似の」みたいな意味ですよね?

田中:
そうそう。だから「pseudo」がカラム名についてると、疑似的な何かを表している可能性が高い。例えば、疑似IDとか疑似コードみたいな。

佐藤:
疑似IDですか?

田中:
そう。クライアントがデータを匿名化するために、実際のIDの代わりにランダムな文字列を使うことがよくあるんだ。例えば、ユーザーIDや取引IDをそのまま渡すのが難しい場合、擬似的な識別子を作ってデータを共有することがある。

佐藤:
なるほど、だからユニークな値が多かったんですね!確かに、もし実際のIDだったら、個人情報とかに関わる可能性があるから、クライアント側で変換しているのかもしれませんね。

田中:
その可能性は高いな。ただ、確実なことはクライアントに確認しないと分からない。データの仕様書には何か書かれてなかった?

佐藤:
一応、データのカラム一覧はもらったんですが、「pseudo」は「擬似識別子」って書かれていただけで、詳しい説明はありませんでした。

田中:
じゃあ、クライアントに「このpseudoカラムは何の識別子で、どういうルールで生成されたものですか?」って確認してみよう。もし、特定のIDをマスキングしたものなら、それが何のIDなのか分かれば分析の仕方も変わるからね。

佐藤:
確かに!ただのランダムな値なのか、それとも特定の法則で置き換えられているのかが分からないと、データの扱い方を間違えるかもしれないですね。

田中:
その通り。特にデータ分析では、カラムの意味を正しく理解することが重要だから、分からないものは必ず確認するクセをつけよう。

佐藤:
はい!じゃあ、クライアントに問い合わせてみます。ありがとうございます!

田中:
おう、頼んだぞ!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?