面白そうなコンペを見つけたので、ざっくり概要を記事としてまとめます。
今年の春はsignateの株のコンペとこれをじっくりとやっていこうかなって考えてます。
それでは、本コンペにおける概要、及び戦略を本ノートにまとめていきます。
次回予告:チュートリアル的なものを作れればいいなと考えています。
#Description
要するに、オンラインショップにおける、ベストな取引先を決めるコンペ。
背景としては、同じ商品でも販売相手によって値段が異なることが多い。だからこそ、販売側も顧客に自分のとこの商品が
一番安いぞっといったことを安心させるために競争相手の状況を知る方法が欲しい。この方法こそが自社の販売における競争力をあげることにつながる。これを実現させる方法として、今回のコンペではデータサイエンスの力を貸してください!!といった内容
コンペ内容は、異なる2枚の洋服の画像が同じ商品であるか異なる商品なのかを判別するシステムの構築が欲しい。
顧客は、間違った判断や異なる商品を同じものとするのは極力避けたいと考えている。今回はこれを実現するために、画像データとテキストデータを機械学習、及び深層学習を使って解析し、、自動化してほしい。
Shopeeは南アジアと台湾のリーディングeコマースの企業だ。彼らの素晴らしいサービスと今回のサービスを組み合わせることで良い新しいシステムができるはずだ。
本コンペで素晴らしい機械学習の知識をぜひ発揮して欲しい。
#Evaluation
評価方法:F1 scoreで評価する。
#注意:本コンペはコードコンペティションである。
だからこそ、kaggleでのnotebookで頑張ってコードを完成させましょう。
#Data Set
大規模なデータセットの中から重複しているものを見つけることは、多くのオンラインビジネスにとって重要な問題だ。Shopeeの場合、ユーザーが自分で画像をアップロードしたり、商品説明を書いたりすることができるので、さらに多くの課題がある。仕事は、どの商品が繰り返し投稿されているかを特定すること。関連する商品の違いは微妙ですが、同じ商品の写真は大きく異なる。
これはコードコンペなので、テストセットの最初の数行/画像のみが公開され、残りの画像は提出されたノートブックでのみ見ることができる。隠されたテストセットには、約 70,000 枚の画像が含まれており、公開されている数行のテストと画像は、隠しテストセットのフォーマットとフォルダ構造を説明するためのものだ。