欠損値の処理(日本酒のスペック非公開について)
解決したいこと
好みの日本酒のスペック(精米歩合・日本酒度・酸度etc...)を入力してもらうことで、好みかもしれない日本酒の候補を提示するアプリを作りたいと思っています。
現状の自分の技術では、一足飛びにはできないと思うので、まずは手元にあるスペックデータから、クラスタリングをする所までやりたいと思っています。
ただ、日本酒のスペックには非公開にしている部分もあり、それが珍しいことではないので、欠損値の扱いに困っています。スペック非公開の基準や理由は調べてみましたが、明確な理由は今の所見つかっていませんが、先入観を持たずに飲んでほしいという理由が有力だと思われます。
検討していること
あまりにも欠損値の多い日本酒については今回は除外しようと考えています。
欠損値の多い特徴量の削除は重要な情報をなくしてしまいそうなので考えていません。補完については辛口か甘口か、芳醇か淡麗かの情報があれば、+か-かの判断はできますが、それ以上は難しそうだと考えています。
また、先入観を持たずに飲んでほしいという理由を考慮すると、補完すること自体が難しいような気がします。
今一番有効だと考えているのは、非公開は非公開でそういったカテゴリを作ってしまうことです。
聞きたいこと
日本酒に詳しい方や、同じような性質をもった欠損値の扱いをしたことのある方がいらっしゃいましたら、ご意見やご提案を頂けませんでしょうか。
過去にこの手の分析を行った方の欠損値の扱い方も調べている所ですが、いかんせん初心者なもので、検索ワードや欠損値の扱いについてどこに記述されているのかを探すのも一苦労でして、自力での検索と並行して質問させていただきたいです。
分析で扱う言語はPythonです。
よろしくお願いいたします。