本記事で紹介するKaggle関連の技術書の一部@Amazon
目次
- はじめに
- コンペ初心者向け
-
コンペ中上級者向け
6. Kaggleで勝つデータ分析の技術
7. Kaggleに挑む深層学習プログラミングの極意
8. Kaggleで磨く 機械学習の実践力 実務xコンペが鍛えたプロの手順
9. Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
10. Kaggleで学んでハイスコアをたたき出す! Python機械学習&データ分析
11. Kaggleコンペティション チャレンジブック
12. The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー
13. The Kaggle Workbook 著名コンテストに学ぶ!競技トップレベルの思考と技術[機械学習・深層学習の実例と練習問題] - おわりに
はじめに
たとえば 2005 年に発表された大勢のチェス選手を調査した認知心理学の論文によれば、グランドマスターに到達する選手は競技生活の最初の 10 年のうち、およそ 5000 時間を過去の試合の研究に費やしているということが報告されています。これは他の平均的なプロ選手の数倍で、この部分こそが差を生み出していることがわかります。
— Lifehacking.jp 『あなたを次のレベルに押し上げる「集中的訓練」の方法』より抜粋
類まれな成果を上げるチェスプレイヤーには、一つの共通点があります。それは、膨大な時間を過去の定跡や対局の研究に費やしていることです。この学びの姿勢は、Kaggleの世界でも同様に重要です。過去のコンペティションを深く理解し、他の参加者がどのようなアプローチで成功を収めたのかを学ぶことは、成長の大きな糧となります。
本記事では、過去コンペを学ぶ際の羅針盤となる Kaggleと名のつく全ての技術書 を紹介します。
コンペ初心者向け
1. 実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
- 発売日: 2020/3/19
- 定価: 2,200円
- ページ数: 192
- 一言紹介: 絵が多くてとてもわかりやすい。初心者向け書籍の中で一番オススメ。カレーちゃんさん、u++さんが執筆者。
説明文引用
シリーズの第2弾は、初学者向けのKaggle入門書の決定版!
★「Kaggleで勝つ」準備をしよう!★
初学者が「Kaggleに何となく興味ある」状態から「実際のコンペに参加できる」状態になれるような内容を目指しました。
・サンプルコードの詳細な解説があるから、しっかり身につく!
・優勝チームと専業Kagglerのコンビによる、安定のわかりやすさ!
・充実の本音対談で、やさしくサポート!
・初学者や手探りでやっているが体系的な知識を得たい人に最適
後述の『Kaggleのチュートリアル』と下記の記事を土台に、さらなる内容も盛り込まれている。
2. Pythonで動かして学ぶ! Kaggleデータ分析入門
- 発売日: 2020/10/22
- 定価: 2,860円
- ページ数: 368
- 一言紹介: Kaggleの初心者向けチュートリアル「Titanicコンペ」「House Pricesコンペ」を題材に、コンペの取り組み方をステップバイステップで解説。Kaggle Masterへの特別インタビュー、GCP(新名称:Google Cloud)による分析手順、Kaggle Days Tokyo2019レポートについても記載アリ。
説明文引用
世界最大のデータ分析コンペサイト
Kaggle(カグル)に挑戦して
データ分析の基礎知識を身に付けよう!
【本書の概要】
本書はこれからデータ分析をはじめたいと思っている方や、
Kaggleに興味のあるデータ分析の初心者に向けて、
Pythonの実際のコードとともに丁寧に解説した書籍です。
データ分析で必要な一般的な知識とともに、
Kaggleへチャレンジするフローや、
Kaggleの初心者向けコンペへの取り組み方を紹介します。
データ分析や機械学習の一端に触れ、
実際に課題を解決するプロセスを体感できます。
【本書の対象読者】
・データサイエンティストを目指す学生
・データ分析に興味はあるが、あまり経験や知見がないデータ分析の初学者の方
【本書のポイント】
Kaggleの初心者向けチュートリアル「Titanicコンペ」「House Pricesコンペ」について、
分析の準備から結果の考察、そして精度を上げるプロセスを
ステップバイステップでコードとともに、わかりやすく解説しています。
【本書より扱うコンペの特徴:本書より抜粋】
・Titanicコンペの特徴
乗客ごとに性別や年齢、乗船チケットクラスなどのデータが、
生存したか死亡したかのフラグとともに与えられています。
生死に影響する属性の傾向をデータから分析して、
生死がわからない(予測用に隠されている)乗客について、
生死結果を予測することが目的です。
・House Pricesコンペの特徴
与えられるデータは、住宅ごとの築年数、設備、広さ、エリア、ガレージに入る車の数など、
79個の説明変数および、目的変数としての物件価格を含みます。
1460戸の学習データが与えられ、そのデータをもとにモデルを作成し、
1459戸の家の価格を予測します。
3. データサイエンスの森 Kaggleの歩き方
- 発売日: 2019/10/22
- 定価: 2,904円
- ページ数: 224
- 一言紹介: Kaggleそのもの(Kaggleとは、Kaggleのシステムの紹介など)について解説した書籍。
説明文引用
Kaggleとは、コンペティションを主催するほかに、機械学習エンジニアの育成から就職支援まで携わる、データサイエンティスト支援の一大ポータルです。本書では、Kaggleの概要から、コンペティションへの参加方法、コードの実行方法、活用方法など、幅広く解説しています。
【序文より抜粋】
本書では、データ解析コンペティションを開催しているKaggleというサイトを紹介しますが、Kaggleのコンペティションは、単純にデータを受け取り、解析し、スコアが付けられるだけの流れ作業ではありません。
Kaggle上で行われるコンペティションは、それぞれが1つのドラマです。
データの特性に関する議論や有効なソリューションの公開が行われると思えば、仮順位の推移を巡る駆け引きもあり、そして時には主催者側の問題で右往左往する参加者の姿が見られたりと、コンペティションの開催から終了まで続くお祭り期間中には、さまざまな人間模様を見ることができます。
Kaggleのコンペティションを通じて、そうしたデータサイエンティストたちの活動の実態を紹介し、また、実際にKaggleに参加して、人間味あふれるデータサイエンティストたちと交流するにはどうすればよいかを紹介するために、本書を執筆しました。
そのため、本書では、単にKaggleの使い方を解説するだけではなく、実際のコンペティションで起こった事例を、できるだけ多く取り入れるようにしています。
4. Kaggleのチュートリアル
- 発売日: 2021/12/26
- 定価: 1,250円(Kindle Unlimited対象書籍)
- ページ数: 257
- 一言紹介: カレーちゃんさんが執筆者の初心者向けKaggle本。付録にコンペ体験談×5件。
説明文引用
Kaggleは世界最大の機械学習のコンペサイトです。
参加は誰でも無料ですることができますが、サイトが英語であるため、はじめは少しだけ難しいところがあります。
この本では、初学者の方を対象に、Kaggleの初学者向けのコンペであるタイタニックコンペの取り組み方を丁寧に説明します。
また、Kaggleでよく使われるLightGBMやpandas-profilingといったライブラリや、メダル獲得の条件なども丁寧に説明しています。
また、付録では、タイタニックコンペの次のコンペに取り組んだ方の体験談を著者の体験談を含め5つ掲載しています
5. kaggleで上位に入るための探索的データ解析入門
- 発売日: 2020/3/26
- 定価: 780円(Kindle Unlimited対象書籍)
- ページ数: 79
- 一言紹介: 探索的データ解析(EDA)に着目した初心者向けKaggle本。
説明文引用
本書は探索的データ解析の入門書です。kaggleのコンペティションにおいて最初に行う作業が探索的データ解析で、この作業でいかにデータセットの特徴をつかむか!がコンペティションで上位に入るためのカギとなります。本書はkaggle上位ランカー達が使っているテクニックも体系化して、kaggle入門者でもすぐに実践できるようにわかりやすく基礎知識からデータ分析の視点、分析手法を実践的に解説しています。コンペティションにこれから参加してみたい方、あるいはもっと上を目指したい方にも参考になる情報が多いでしょう。
コンペ中上級者向け
6. Kaggleで勝つデータ分析の技術
- 発売日: 2019/10/9
- 定価: 3,608円
- ページ数: 424
- 一言紹介: 言わずと知れた『Kaggle本』。通常の機械学習の本にはあまり書かれていない、Kaggleコンペで勝つためのデータ分析技術について記された全Kaggler必携の書。
説明文引用
Kaggleをはじめよう!
データサイエンスの認知の高まりとともに、データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え、多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは、実際のデータを扱うため、機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく、実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために、現時点で最新のものを整理して本書にまとめました。特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方、あるいはもっと上を目指したい方だけでなく、実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。
7. Kaggleに挑む深層学習プログラミングの極意
- 発売日: 2023/2/2
- 定価: 2,860円
- ページ数: 224
- 一言紹介: 画像・自然言語処理の機械学習コンペに取り組む極意について記された唯一無二の書籍。通称『極意本』。
説明文引用
★最強最短の近道は、これだ!★
・画像・自然言語処理の機械学習コンテストに取り組みながら、深層学習の具体的な知識をいち早く身につけよう!
・レジェンドたちの豊富な経験に基づくスキルアップのノウハウも満載!
8. Kaggleで磨く 機械学習の実践力 実務xコンペが鍛えたプロの手順
- 発売日: 2022/6/3
- 定価: 3,300円
- ページ数: 376
- 一言紹介: シンプルなベースラインを作成し、それを改善していく取り組み方についてわかりやすく解説した書籍。
説明文引用
●Kaggleは楽しい!
Kaggleは誰でも気軽に参加できるデータ分析の競技コンペです。
コンペで試した技を、実務に応用する――そのシナジーにより、みるみる実力が付きます。
Kaggleマスターの著者自身がそうして得たノウハウを、惜しげもなく本書では公開します。
しかし、本書を通じてお伝えしたいのは、何よりKaggleのワクワク感です!
著者のMoroさんによる書籍紹介ツイート:
9. Kaggle Grandmasterに学ぶ 機械学習 実践アプローチ
- 発売日: 2021/8/24
- 定価: 2,959円
- ページ数: 320
- 一言紹介: 機械学習タスクに取り組む際の解決手法について、1トピック1章で詳細に解説している書籍。著者のAbhishek Thakurさんは、世界初のQuadruple Grand Master。
説明文引用
さまざまな機械学習問題の解決手法を実践的なPythonコードで丁寧に解説。
"Approaching (Almost) Any Machine Learning Problem: (ほぼ)すべての機械学習問題へのアプローチ" の翻訳書。機械学習モデル改善のためにいつ、何を使うのか? またモデル作成以前の課題、コード再現性やモデルのデプロイといった話題にも踏み込みます。
著者のAbhishek ThakurさんのYouTubeチャンネル:
10. Kaggleで学んでハイスコアをたたき出す! Python機械学習&データ分析
- 発売日: 2020/8/18
- 定価: 2,495円
- ページ数: 473
- 一言紹介: チュートリアルコンペや過去コンペを題材にソリューションを解説した書籍。図解が多くてとてもわかりやすい。
説明文引用
本書はデータ分析コンペティション(分析コンペ)を開催する「Kaggle」で出された課題を通じて、機械学習やディープラーニング、アンサンブル、転移学習などを学ぶものです。言語は機械学習に最適なPythonを使っています。実際に公開されたコンペを題材にしていますので、実践的に学ぶことができます。さらにコンペ上位入賞者が使っているテクニックなども紹介、データ分析はもとより、AIの基礎技術を学ぶ上でも大いに役立つことでしょう。
11. Kaggleコンペティション チャレンジブック
- 発売日: 2020/12/28
- 定価: 3,828円
- ページ数: 384
- 一言紹介: テーブルデータコンペ2つ・音声データコンペ1つ・画像コンペ1つを題材に合計4つのKaggleコンペティションを解説した書籍。
説明文引用
Kaggleのコンペティションによって機械学習を学ぼうとしている読者のためのKaggle入門書です。Pythonと機械学習についての基礎的な知識を有している読者が、Kaggleから機械学習を学べるようサポートすることを目標としています。
過去のKaggleのコンペティションから、機械学習モデルの正確度を高める実質的な方法について重点的に扱っていきます。多様なデータに接しモデリングを経験できるよう、表形式データを扱うコンペティションを2つ、音声データ/イメージデータを扱うコンペティションを1つずつ、計4つのKaggleコンペティションを選択しました。
表形式データ(テーブルデータ)を扱うコンペティションでは、データの前処理、特徴量エンジニアリングの内容に重点をおき、学習モデルはXGBoost、LightGBMのようなツリーを基盤としたモデルを使用しました。
音声データとイメージデータを扱うコンペティションでは、ディープラーニングモデルの学習に重点を置き、CNNのディープラーニングモデルが使われます。
それぞれの章でコンペティション別に、大会の紹介、主催側の動機、評価の基準、主要なアプローチ、データを準備する方法、データ分析、勝者の智恵に至るまで具体的に検討します。そして過去のコンペティションで使用されたPythonコードを実行することで、探索的データ分析を進め、機械学習モデルを学び、最終的にKaggleに結果をアップロードして性能が向上したことを体験できます。
筆者は本書を通して、読者が機械学習の問題を解くために悩んでほしいと思っています。「次の段階では何をしなければならないのか」「機械学習モデルの性能を高めるためには何をすればよいのか」「現在の機械学習パイプラインのどこに問題があるのか」などの質問を自分自身に投げかけ、悩むことをおすすめします。たっぷりと悩みながらこの本を読みコンペティションに参加したならば、非常に多くのことを得るはずです。
筆者がKaggleを通して多くのことを学んだように、読者の皆さんもぜひKaggleを通して機械学習に没頭してほしいと思います。
12. The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー
- 発売日: 2023/2/21
- 定価: 4,290円
- ページ数: 456
- 一言紹介: Kaggleにおける各種トピック(指標、検証方法、モデリング、パラメーターチューニング、アンサンブル)と各種データモダリティ(テーブルデータ、画像データ、テキストデータ、シミュレーションと最適化)について各章で解説。Kaggleの辞書となる書籍。Grandmaster/Master 31人(日本人Kagglerを多数含む)のインタビューも掲載。
説明文引用
データ分析競技のヒント、テクニック、ベストプラクティスを解説!
Grandmaster/Master 31人のインタビューも掲載。Kagglerの視点を学ぶ
◎ノートブック、データセット、ディスカッションフォーラムの活用を解説
◎モデルの評価指標、検証戦略、ハイパーパラメータ最適化について詳述
◎コンピュータビジョン、自然言語処理、シミュレーションなどもカバー
◎自身のポートフォリオを作成し、キャリアにつなげる方法を紹介
世界中の何百万人もの人々がKaggleに参加しています。
データ分析スキルを向上させ、素晴らしいコミュニティとネットワークを作り、
キャリアアップに役立つ貴重な経験を得ようとしています。
本書では、Grandmasterの著者2人がさまざまなモデリング戦略のほか、
これまでに蓄積されたテクニック、スキルを解説。
Kaggle特有のヒントだけでなく、より一般的なテクニックも学べます。
Kaggleのランクを上げたい、データサイエンスのスキルアップを図りたい、
既存のモデルの精度を上げたい、といった方への格好の一冊です。
「本書を最後まで読めば、自信を持ってKaggleに参加できるようになるはずです。
そして、Kaggleに自信を持って参加することには、多くの見返りがあります。
1つ目は、Kaggleが機械学習の最も実践的な開発を把握するための非常に効果的な方法であること、
2つ目は、Kaggleがユーザーに『試行錯誤で学ぶ』方法を提供することです。」
―Kaggle創設者兼CEO アンソニー・ゴールドブルーム(序文より一部抜粋)
13. The Kaggle Workbook 著名コンテストに学ぶ!競技トップレベルの思考と技術[機械学習・深層学習の実例と練習問題]
- 発売日: 2023/10/19
- 定価: 2,860円
- ページ数: 160
- 一言紹介: 先述の『The Kaggle Book:データ分析競技 実践ガイド&精鋭31人インタビュー』の問題集(Workbook)に該当する書籍。4つの過去コンペを題材に、問題演習を行う。
説明文引用
名高いコンペの解き方をたどる!
ケーススタディと練習問題で実践力を養おう
世界中の何百万人もの人々がKaggleに参加し、さまざまなコンペティションで、
より良い結果を得るためにしのぎを削っています。
本書は、そのためのスキルをより素早く身につけるのに役立つ
ワークブックとして構成されています。
過去の代表的なコンペを取り上げ、どのように段階を踏んで
ソリューションを構築していくのかを解説します。
たとえば、ディスカッションを読み、ノートブックを再利用し、
特徴量エンジニアリングやさまざまなモデルの訓練を見ていきます。
テーマによっては、基本的なソリューションから高度なものへと
発展させていきます。各種トピックについて理解を深めるための
練習問題も掲載されています。
どのような情報や知見、理論をもとにして、
どのようなソリューションが導き出されたのか。
さまざまな手を尽くしながら競い合っていることもわかるでしょう。
おわりに
先日、日本がKaggle Grandmasterの人数で世界首位に輝いたという素晴らしいニュースがありました。これは日本のデータサイエンティストの層の厚さと、Kaggleコミュニティの賑わいを象徴する成果といえるでしょう。そしてその背景には、優れた技術書の存在があると感じます。
Kaggleは単なるデータ分析のプラットフォームを超え、技術者同士が切磋琢磨する場であり、学びを深める最高の環境です。過去のコンペティションから得られる知見は、コンペの成功に限らず、実務でも活用できる重要なスキルやアイデアをもたらしてくれます。本記事で紹介した書籍の中から、自分に合った一冊を見つけていただき、データサイエンスの世界により深く足を踏み入れるきっかけになれば幸いです。
Kaggleで培われた知識と経験が、皆さまのキャリアやプロジェクトにとって大きな財産となることを願っております。今後もKaggleでの挑戦と、日本のデータサイエンスコミュニティのさらなる発展を楽しみにしています。
本記事は以上です。皆様の良いKaggleライフを応援しております。