Help us understand the problem. What is going on with this article?

[kaggle]初心者に読んでほしい。Notebookの重要性

この記事を書くに至った経緯

本記事は「AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019」のための記事です.たまたまアドベントカレンダーが空いていたので,思い切って参加してみようと思いました.至らぬことはありますが,寛容にみてやってください.

この記事の対象者

この記事は次のような人たちを対象としています.次に該当するような人がどのようなモチベーションや意識を持って取り組んでいけばよいのか道しるべになればよいと思います.

  • kaggleやデータコンペなどに、まだ参加したことがない人
  • 登録はしてみたけれど、何をしていいのかわからず挫折・放置してしまった人
  • 初心者レベルから抜け出して、メダル圏に近づきたいと考えている人

結論を先に言います

Notebookを読もう!

持論ではありますが,とても重要だと思っています.自分自身も他の人が書いたnotebookをひたすら読んでいる時間があります.ただ,これで終わったら,あまりにも雑すぎるので,初心者はNotebookもよくわからないと思うので,本記事では色々と説明していきます.

初心者の疑問

データサイエンスや機械学習を始めたいと考えている人が抱える問題として,次のようなことを考えると思います.

  1. データサイエンスコンペティションって面白そうだな。機械学習のコンペをやっているらしいけど、どうやって始めれば良いのだろうか?
  2. kaggleに登録してみたけど、どうやるのか全然わからない!全部英語はハードルが高い

これらの課題を少しでも手助けできれば良いと思います.

開催中のコンペに参加??

「kaggleに登録したし,開催中のコンペに参加するぞ!」

こんなモチベーションで多くの人がkaggleに入門していきます.

このやる気を継続できるのであれば非常に良いことですが、歩く道筋がわからないままでは多くの人は路頭に迷ってしまって,結構な確率で挫折してしまうと思います.
(なぜなら、kaggleのNovice(kaggleのランクの一番下)の人口がめちゃくちゃ多いので...)

全てのやりとりが英語で行われ,難しい機械学習のモデルなどが公開されているので,右も左もわからない状態の初めたばかりの人にとっては,とてもハードルが高く感じるのは当然だと思います.そして何から初めれば良いのか分からず,ここで辞めてしまう人が多く発生していると予想しています.

また最近では,kaggle関連の書籍が発売されたり,日本人の上位のkagglerが初心者向けの記事を公開しているので,少し前に比べると学習の環境もだいぶ整ってきたようにも感じます.

個人的に感じているのは、現在進行形で開催中のコンペに参加することが初心者にとってよくないのではないか?と私は考えています.もちろん開催中コンペの空気や流れなどを感じることや試行錯誤して実際の問題設定について思考することも非常に大切なことだと考えています.しかし,その思考のためには知識や経験が必要だと思います。

つまり,ある程度の経験値が貯まってから,開催中のコンペに参加してみたらどうか?ということです.

聞ける環境を作ろう

kaggler-jpというslackグループがあるので、分からないことはそこで聞いてみると良いと思います.開催中のコンペの情報はPrivateでの共有はできませんが,過去のコンペや機械学習全般について,多くの知見が集まっていると思います.質問を投げれば,誰かが優しく教えてくれるかもしれません.

Notebookで経験値を貯めよう

Notebookとは,kaggleで公開されているjupyter notebook的なものを指しています.
Screen Shot 2019-12-12 at 7.50.16 PM.png

notebookでできること

notebookで何ができるのかを簡単にまとめてみます.
- 世界中のデータサイエンティストがデータ理解のために取り組んだ結果(EDA)を見ることができる
- 様々な可視化の方法を学ぶことができる.同時にこんなツールがあるのかと知ることもしばしばある.
- 古典的な機械学習のモデリング方法から最近の深層学習を用いた手法などそれぞれが得意な手法の最先端の手法を見て,知見を得ることができる.
- 初心者にとってもっとも大事だと思うのは、ある問題設定に対してどのように取り組むのか.ということがわかる.

このようにnotebookを読んで,色々な解法を見ておくだけども貴重な情報を得ることができると思います.
さらに初心者にとっては,長期的な現在進行形で開催中のデータコンペにいきなり参加するのは,必ず途中で何をして良いのか分からなくなるので,すでに終わったコンペを使って、どのようなことを行えば良いのか知っておくことは大切だと私は思います.

過去のコンペを見てみよう。

kaggleでは,過去に開催されたコンペを見れるようになっています.さらに実際の環境で提出を行うこともできるようになっています.

要するに

Notebookは情報・知見の宝箱なので,読めば読むほど経験値が得られるよ!ってお話でした.
(これに気がつかないで退場してしまう人がたくさんいるように思えたので,これを書きました)

最後に

足早に初心者向けの本記事を書くことになりましたが,記事の公開後も更新を続けていき,よりわかりやすい内容にしていきたいと思っています.
初心者から次のステップに上がるためのハードルは高いものであると私も考えており,その橋渡しの1つの手助けになれば良いなと思っています.

mashgri
機械学習〜ディープ / Python関連
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした