More than 1 year has passed since last update.

Python初学者のためのPandas100本ノック

1541

Last updated at 2024-01-09Posted at 2020-09-25

Information

2024/1/8：
pandas , Polars など18を超えるライブラリを統一記法で扱える統合データ処理ライブラリ Ibis の100 本ノックを作成しました。長期目線でとてもメリットのあるライブラリです。こちらも興味があればご覧下さい。

Ibis 100 本ノック
https://qiita.com/kunishou/items/e0244aa2194af8a1fee9

2023/2/12：
大規模データを高速に処理可能なデータ処理ライブラリ Polars の 100 本ノックを作成しました。こちらも興味があればご覧下さい。

Polars 100 本ノック
https://qiita.com/kunishou/items/1386d14a136f585e504e

はじめに

この度、PythonライブラリであるPandasを効率的に学ぶためのコンテンツとして 「Python初学者のためのPandas100本ノック」 を作成したので公開します。本コンテンツは、 Python3エンジニア認定データ分析試験の出題内容にも沿っているため、この100本ノックを実施することで資格対策にもなります。 また、ノック終盤には、タイタニック号乗客の生存予測問題もあり、Kaggleなどの機械学習コンペへ参加するための練習にもなります。

作成の動機

最近、知り合いでPython・機械学習を始める人が増えてきており、そのような人たちに紹介できるコンテンツを自分でも作ってみたいと前々から思っていたため。Pandasが使えれば、機械学習まではできなくても、日常のデータ集計・分析業務にも活用できると考え、まずPandasの100本ノックを作ってみることにしました。
世の中に参考書は山ほどありますが、頭で理解するよりも、サクサクと手を動かして学べるものが初学者にとって最も上達するコンテンツだと考え、そのようなものを作りたいと考えました。

Pandas100本ノックの概要

Jupyter Notebook上のセルに記載された、Pandasに関する設問100問を解いていきます。
通常版と、問題のランダム表示版の2つが同封されています。
セクションは、基礎(1-13)、抽出(14-32)、加工(33-58)、マージと連結(59-65)、統計(66-79)、ラベリング(80-81)、Pandasプロット(82-89)、タイタニック号乗客の生存予測(90-100)の8つに分かれています。

以下に概要の動画を載せておきます。

問題内容

No.	分類	問題
1	基礎	dfに読み込んだデータの最初の5行を表示
2	基礎	dfに読み込んだデータの最後の5行を表示
3	基礎	dfのDataFrameサイズを確認
4	基礎	inputフォルダ内のdata1.csvファイルを読み込みdf2に格納、最初の5行を表示
5	基礎	dfのfareの列で昇順に並び替えて表示
6	基礎	df_copyにdfをコピーして、最初の5行を表示
7	基礎	① dfの各列のデータ型を確認 ② dfのcabinの列のデータ型を確認
8	基礎	① dfのpclassの列のデータ型をdtypeで確認 ② 数値型から文字型に変換し、データ型をdtypeで確認
9	基礎	dfのレコード数(行数)を確認
10	基礎	dfのレコード数(行数)、各列のデータ型、欠損値の有無を確認
11	基礎	dfのsex,cabinの列の要素を確認
12	基礎	dfの列名一覧をlist形式で表示
13	基礎	dfのインデックス一覧をndarray形式で表示
14	抽出	dfのnameの列のみ表示
15	抽出	dfのnameとsexの列のみ表示
16	抽出	dfのindex(行)の4行目までを表示
17	抽出	dfのindex(行)の4行目から10行目までを表示
18	抽出	locを使ってdf全体を表示
19	抽出	locを使ってdfのfare列をすべて表示
20	抽出	locを使ってdfのfare列の10行目まで表示
21	抽出	locを使ってdfのnameとticketの列をすべて表示
22	抽出	locを使ってdfのnameからcabinまでの列をすべて表示
23	抽出	ilocを使ってdfのage列を5行目まで表示
24	抽出	dfのname,age,sexの列のみ抽出しdf2に格納その後outputフォルダにcsvファイルで出力
25	抽出	dfのage列の値が30以上のデータのみ抽出
26	抽出	dfのsex列がfemaleのデータのみ抽出
27	抽出	dfのsex列がfemaleでかつageが40以上のデータのみ抽出
28	抽出	queryを用いてdfのsex列がfemaleでかつageが40以上のデータのみ抽出
29	抽出	dfのname列に文字列「Mrs」が含まれるデータを表示
30	抽出	dfの中で文字型の列のみを表示
31	抽出	dfの各列のユニークな要素数のカウント
32	抽出	dfのembarked列の要素と出現回数の確認
33	加工	dfのindex名が「3」のage列を30から40に変更
34	加工	dfのsex列にてmale→0、femlae→1に変更し、先頭の5行を表示
35	加工	dfのfare列に100を足して、先頭の5行を表示
36	加工	dfのfare列を2を掛けて、先頭の5行を表示
37	加工	dfのfare列を小数点以下で丸める
38	加工	dfに列名「test」で値がすべて1のカラムを追加し、先頭の5行を表示
39	加工	dfにcabinとembarkedの列を「_」で結合した列を追加(列名は「test」)し、先頭の5行を表示
40	加工	dfにageとembarkedの列を「_」で結合した列を追加(列名は「test」)し、先頭の5行を表示
41	加工	dfからbodyの列を削除し、最初の5行を表示
42	加工	dfからインデックス名「3」の行を削除し、最初の5行を表示
43	加工	df2の列名を'name', 'class', 'Biology', 'Physics', 'Chemistry'に変更 df2の最初の5行を表示
44	加工	df2の列名を'English'を'Biology'に変更 df2の最初の5行を表示
45	加工	df2のインデックス名「1」を「10」に変更 df2の最初の5行を表示
46	加工	dfのすべての列の欠損値数を確認
47	加工	dfのageの列の欠損値に30を代入その後、ageの欠損値数を確認
48	加工	dfでひとつでも欠損値がある行を削除その後、dfの欠損値数を確認
49	加工	dfのsurvivedの列をarray形式(配列)で表示
50	加工	dfの行をシャッフルして表示
51	加工	dfの行をシャッフルし、インデックスを振り直して表示
52	加工	①df2の重複行数をカウント ②df2の重複行を削除し表示
53	加工	dfのnameの列をすべて大文字に変換し表示
54	加工	dfのnameの列をすべて小文字に変換し表示
55	加工	dfのsex列に含まれる「female」という単語を「Python」に置換
56	加工	dfのname列1行目の「Allen, Miss. Elisabeth Walton」の「Elisabeth」を消去(import reが必要)
57	加工	df5の都道府県列と市区町村列を空白がないように「_」で結合(新規列名は「test2」)し、先頭5行を表示
58	加工	df2の行と列を入れ替えて表示
59	マージと連結	df2にdf3を左結合し、df2に格納
60	マージと連結	df2にdf3を右結合し、df2に格納
61	マージと連結	df2にdf3を内部結合し、df2に格納
62	マージと連結	df2にdf3を外部結合し、df2に格納
63	マージと連結	df2とdf4を列方向に連結し、df2に格納
64	マージと連結	df2とdf4を列方向に連結し重複している name列の片方を削除し、df2に格納
65	マージと連結	df2とdf2を行方向に連結し重複しているname列の片方を削除し、df2に格納
66	統計	dfのage列の平均値を確認
67	統計	dfのage列の中央値を確認
68	統計	①df2の生徒ごとの合計点（行方向の合計） ②df2の科目ごとの点数の総和（列方向の合計）
69	統計	df2のEnglishで得点の最大値
70	統計	df2のEnglishで得点の最小値
71	統計	df2においてclassでグルーピングし、クラスごとの科目の最大値、最小値、平均値を求める(name列は削除しておく)
72	統計	dfの基本統計量を確認(describe)
73	統計	dfの各列間の(Pearson)相関係数を確認
74	統計	scikit-learnを用いてdf2のEnglish、Mathmatics、Historyを標準化する
75	統計	scikit-learnを用いてdf2のEnglish列を標準化する
76	統計	scikit-learnを用いてdf2のEnglish、Mathmatics、History列をMin-Maxスケーリングする
77	統計	dfのfare列の最大値、最小値の行名を取得
78	統計	dfのfare列の0、25、50、75、100パーセンタイルを取得
79	統計	①dfのage列の最頻値を取得 ②value_counts()にてage列の要素数を確認し、①の結果の妥当性を確認
80	ラベリング	dfのsex列をラベルエンコーディングし、dfの先頭5行を表示
81	ラベリング	dfのsex列をOne-hotエンコーディングし、dfの先頭5行を表示
82	Pandasプロット	dfのすべての数値列のヒストグラムを表示
83	Pandasプロット	dfのage列をヒストグラムで表示
84	Pandasプロット	df2のnameごとの3科目合計得点を棒グラフで表示
85	Pandasプロット	df2のname列の要素ごとの3科目を棒グラフで並べて表示
86	Pandasプロット	df2のname列の要素ごとの3科目を積み上げ棒グラフで表示
87	Pandasプロット	dfの各列間の散布図を表示
88	Pandasプロット	dfのage列とfare列で散布図を作成
89	Pandasプロット	【88】で描画したグラフに「age-fare scatter」というグラフタイトルをつける
90	タイタニック号の生存者予測	df_copyのsexとembarked列をラベルエンコーディング
91	タイタニック号の生存者予測	df_copyの欠損値を確認
92	タイタニック号の生存者予測	df_copyのage、fare列の欠損値を各列の平均値で補完
93	タイタニック号の生存者予測	df_copyの中で機械学習で使用しない不要な行を削除
94	タイタニック号の生存者予測	①df_copyのpclass、age、sex、fare、embarkedの列を抽出し、ndarray形式に変換 ②df_copyのsurvivedの列を抽出し、ndarray形式に変換
95	タイタニック号の生存者予測	【94】で作成したfeatrues、targetを学習データとテストデータに分割
96	タイタニック号の生存者予測	学習データ(features、target)を用いランダムフォレストにて学習を実行
97	タイタニック号の生存者予測	test_Xデータの乗客の生存を予測
98	タイタニック号の生存者予測	予測結果がtest_y(生存有無の答え)とどれぐらい整合していたかを確認(評価指標はaccuracy)
99	タイタニック号の生存者予測	学習における各列(特徴量)の重要度を表示
100	タイタニック号の生存者予測	test_Xの予測結果をcsvでoutputフォルダに出力（ファイル名は「submission.csv」）

利用方法

※Pythonをまだインストールしていない方は、以下の記事を参考に、まずAnacondaを自身のPCにインストールして下さい。問題内ではPandas以外にも、Scikit-learnなどのライブラリも使用します。

5分で簡単！AnacondaでPython3をインストール(Windows/Mac編)

なお、作者のpandasバージョンは1.1.0です。下位バージョンにて実行した場合、一部エラーが出る設問があることが報告されています(設問31の「nunique()」等)。

GitHubよりZIPフォルダをダウンロードした後に、自身のPCのローカル領域に展開する。
「notebook」フォルダに格納されているipynbファイルをJupyter Notebookで開く(まずは「01_Pandas_100_Knocks_for_Begginer_v1.0.x.ipynb」を開いてみて下さい)。
ipynbファイルを開いた後に、先頭のセルを実行すると回答ファイル、問題で使用するデータセットが読み込まれます。使用するデータセットは、タイタニック号の乗客データ等になっています。
各設問のセル内に設問に対するコードを入力していきます。
答えが分からない場合は、設問セル内の「#print(ans[])」という記述から「#」を消して実行することで、回答例が表示されます。
100本ノック終了後に、各セルの出力結果をオールクリアしたい場合は、ツールバーの「Kernel」→「Restart & Clear Output」を実行します。
「01_Pandas_100_Knocks_for_Begginer(all_answer_displayed)_v1.0.x」ではすべての回答と出力結果を最初から表示しています。回答や出力結果をまとめて確認したいときにご活用下さい。Pandasを一度も触ったことのない方はまずこちらでメソッドを暗記するような勉強方法でも良いと思います。

ディレクトリ構成

pandas_100_knocks_v1.0.x
　├ notebook/　…　4つのipynbファイルが格納
　├ input/ …　100問分の回答ファイル、問題で使用するデータセットが格納
　└ output/ …　問題でファイル出力する際にここに格納

※ZIPファイルから展開した後に、このディレクトリ構成は変えないで下さい（上手く動作しなくなります）。

このコンテンツの目指すところ

願わくばPython初学者の方がレベル3まで到達できることを意識し、問題を設定しました（3回解けばレベル2までは到達できると思います。）。

レベル1
Python・Pandasで基本的なデータ集計・分析ができるようになる（業務においてExcel、Accessの代替え手法として、Pythonでデータ集計・分析ができる）

（補足） Excel、AccessではなくPythonでデータ集計・分析を行う必要性ですが、Excelは表示できるレコードの行数、Accessはファイル容量2GBまでと、集計・分析できるファイルに制限があります。それに対し、Pythonであれば10GB、20GB等の大容量ファイルの集計・分析を行うことが可能です（PCスペックにより扱えるファイル容量の上限は変わります）。

レベル2
データ集計・分析だけでなく一部の機械学習ができる（「notebook」フォルダに格納している03のipynbファイル(タイタニック)を見た時に何を実施しているのか理解できるようになる）。
レベル3
Kaggle等の機械学習コンペに参加できるようになる

ダウンロード

コンテンツはGitHubよりダウンロードできます。

使用範囲／注意事項

使用範囲
個人・法人を問わず誰でも使用可能
(有志の勉強会や社内の研修で使う際、ご一報いただけると作者のモチベーションが上がります。「このコンテンツがPython認定試験の取得に役立った」のようなコメントも嬉しいです)
注意事項
コンテンツの再配布・改編は不可

その他（Scratchpad）

Jupyter Notebookの拡張機能としてnbextensionsのScratchpadが便利なのでインストールをおすすめしておきます。100本ノックに取り組んでいる途中、データフレームに格納しているデータ内容を確認するためにいちいち「新規セル追加 → df.head()」をするのは面倒です。Scratchpadを使えば、「Ctrl+B」で使い捨てのセル領域を呼び出すことができます。

インストール方法は以下を参考にして下さい。

【Python】jupyter notebookの機能拡張 ~jupyter notebook extensions~

最後に

本コンテンツに関してご質問・ご要望があればご連絡下さい。

※ 2023/1/27　大変光栄なことに記事の閲覧回数が100,000viewsを越えました。
また、企業様より社内育成で使用しているというお声もいただいております。
誠にありがとうございます。

更新履歴

2021/3/1：V1.0.4に更新
・設問71の回答誤りを修正
・一部の問題の文の表現を修正
2020/10/21：V1.0.3に更新
・設問34と64の回答誤りを修正
2020/10/2：V1.0.2に更新
・設問66と67の回答誤りを修正(mean(平均値)とmedian(中央値)が逆)
2020/9/28：V1.0.1に更新
・Mac環境にてファイルがansリスト、quesリストに順番通り読み込まれない不具合を修正
・回答ファイル17、47の回答誤りを修正
・100本ノックのすべての回答と出力結果を最初から表示してあるipynbファイル(all_answer_displayed)を追加で同封（まとめて回答、出力結果を確認したいときにご活用下さい）

1541

1803

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up