LoginSignup
4
1

More than 1 year has passed since last update.

データサイエンスコンテストを開催するときに考えること

Posted at

みなさん初めましてSolafune Techleadの光武といいます。
今回はじめてAdvent Calendar に投稿させていただくので何を書こうかなぁと思い、せっかくなら自分がやっているデータコンテストサイトSolafuneのコンテストを開催するときに考えることを書こうと思いました。

それでは行ってみましょう~

開催するときに考えること

データコンテストのアイディアは常に考えていますが、そのアイディアをいざコンテストにしようとしたときに以下のことを考えます

  • そのコンテストの成果物が実際に使えるかどうか
  • その問題に答えがあるかどうか、答えを作ることができるかどうか
  • スコアに差が出るようなコンテストか
  • 現実的にコンテストの結果が出せるかどうか
  • コンテストとして面白いかどうか

そのコンテストの成果物が実際に使えるかどうか

これはコンテストを考えるときにまず初めに考えることです。
多くのアイディアはそもそも応用先から思いつくこともあり検討しなくてもいい場合が多いんですが、まれに 「それ解けるけどなんに使うん?」 というのもあります。
もちろんそういった問題も面白いですが、基本的に私たちは応用先がある問題をコンテストにしようと思っています。

その問題に答えがあるかどうか、答えを作ることができるかどうか

次に考えることはその問題に答えがあるかどうかです。
コンテストを開くうえでここの部分が結構難しく、
「この問題が解決できたらすばらしいし、応用先としてもいろいろ考えれるんだけどなぁ」
というものでもなかなかコンテストにできなかったりします。

たとえば
【衛星データから雪崩の危険地域を推定する】 という問題を考えたとします。
この問題は雪崩が実際に起きた場所のデータが複数年分ないと、答えを作ることは難しいです。
さらにそのデータがあったとしても実際に起きた場所と起きやすい場所は必ずしも一致するわけではないですし
危険度マックスだけどたまたま起こらなかったということもあるでしょう。
こういう問題はコンテストの答えとして正しい答えを用意できないためコンテストとして開催するには難しい問題となります。

個人的にはこういうアイディアもコンテストでできたら面白いなぁと思うのですが良い方法ありませんかね...

現実的にコンテストの結果が出せるかどうか

次に考えることはコンテストの結果が現状の技術で出せるのかどうかです。
衛星データの解像度が非常に低く数ピクセルしか映っていないような車を検出できるかというとそれはなかなか難しいですよね。

この問題は主に2つのことをやって技術的に可能かを考えています。
まず一つ目はその技術に関係する論文を調べる です。
その課題や技術に関する論文がなければその問題は現在の技術的に難しい場合が多いです。
論文があったとしても非常に限定的だったり特殊なデータが必要な場合、異常な量のコンピューターリソースを使用している場合(A100×100台とか)はさすがに酷すぎると考えて見送ったりします。

そして二つ目はデータを増やせないか調べるです。
上の例だと低解像度の衛星データでやると不可能ですが、十分に車が見れるような高解像度の衛星データがあれば何の問題もなく開催することはできます。
そのほかにも一変数だけでは答えを出すことが難しくても2変数に増やせば答えを出すことができる可能性が上がります。
このようにデータを増やして結果が出せるようになるかを検討したうえでデータを増やすことができなかったり増やしても無理だと思ったら見送ります。

スコアに差が出るようなコンテストか

応用性もある!結果も出せる!となったときに次に考えることがこちらになります。
こちらは一個前の課題とは逆に簡単すぎるコンテストの時に考えることが多いです。
データ数が非常に少ないにもかかわらずコンテストの問題が簡単である場合、参加者の多くがすぐに最適解に到達してしまってみんな満点を取ってしまいコンテストになりません。
特にここは評価関数の選び方などによって大きく変わるので評価関数を考えるときにスコアに差が出るような評価関数を考えて選んでいます。

コンテストとして面白いかどうか

さて、ここまで考えたら基本的にコンテストを開催することはできます!
そして最後に考えることがやはりコンテストが面白いかどうか です!
ここではいろんなことを考えますが主に考えることはいろんなアプローチをとれるかどうかです。

やはりいろんなアプローチをとれるほうが面白いですし、いろんなアプローチを組み合わせたりして精度を上げていくことがコンテストの醍醐味だと思っています。
いろんな参加者がいろんなアプローチをすることで参加者同士でスキルアップにつなげてくれたらと思っていろいろなアプローチがありそうなコンテストを優先的に開催しています。
いろんなアプローチを試したり、自分だけのアプローチ方法を考案してくることを楽しみにしています。

そして開催へ

以上のことを考えてコンテストを開催しています。
結局のところ参加者の皆さんが参加したい、参加して面白いと思ってくれるコンテストを常に考えてコンテストを開催しています。
参加者の皆さんあってのコンテストですからね。

最後に

Solafuneでは主に衛星データ、地理空間情報データを扱ったコンテストを開催しています。
衛星データとか地理空間情報データはいろいろなことに活用できる可能性がある一方で「難しそう」「扱いずらそう」などの理由から敬遠されがちです。
Solafuneでは衛星データに親しみやすくなるように面白いコンテストを開催していきますので今後ともぜひチェックをお願いします。
こういうコンテスト開いてほしいという意見も募集してますのでコメントからどうぞ!

Solafune 公式サイト

最後に宣伝になるんですがSolafuneでは一緒に衛星データで地球を解析する仲間を募集しています。
衛星データや地理空間情報データの解析、技術開発のプロジェクトとしてはこの上ない環境だと思いますので是非!
Solafune 採用サイト

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1