Pythonのコードで、CSVやExcelのデータを読み込んだり、統計指標を使ったりする機会は、普段Pythonを使っている方であれば使い慣れている方もいらっしゃると思いますが、実際には少し興味はあるけれど、どうPythonで書いてみればよいのかわからないという方のほうが多いのではないでしょうか。ここではPythonのライブラリの基本的な書き方を含め、読み込んだCSVデータの内容を、統計的に処理・表現するという形の演習をしていきたいと思います。
「数学的な問題をPythonで簡単なスクリプトを作って動作を確認する」こと通して、Pythonに触れる機会をつくっていきたいと考えています。Pythonに慣れるという点でも手を動かして考える機会にして頂ければ幸いです。
今回は、Pythonで学び直す数学【統計編】の確認をしていきたいと思います。
演習問題のダウンロードはこちらから
まず、読み込んだデータを統計情報として利用するためのPythonライブラリについてみていきましょう。
ここでは「Numpy」と「Pandas」を紹介します。
Numpyとは?
Numpyとは、科学計算のための基本的なパッケージで、アレイを作成するのに便利なライブラリのこと。
Numpyを利用するには、以下のようにインポートを行います。Asキーワードを使用してnpで呼び出せるようにします。
NumPyを使用することで、アレイや乱数生成など様々なことができるようになります。通常のPythonで処理を行うよりもずっと早く処理できるので、大量のデータを扱う(機械学習など)場合にNumPyが利用されます。
Pandasとは?
Pandasとは、Pythonでデータ処理をするために作られた高機能なライブラリのこと。代表的な使い方としてSeriesやDataFrameを使ったデータの処理方法があります。
Pandasを利用するには、以下のようにインポートを行います。Asキーワードを使用してpdで呼び出せるようにします。
In
▷使用例
csvやExcelのデータを読み込んだり、列や行を削除したり、フィルターをかけて抽出をしたり、Excelやデータベース言語のSQLでできることがPandasの機能にあります。
次に、統計として扱うCSVデータを読み込む方法について、見ていきましょう。
以下のようなCSVデータを読み込む例を考えてみましょう。
次に、度数分布表を描画する方法について、見ていきましょう。
ここで、添付演習問題の「統計指標」シートの問題を解いてみましょう。
Numpyを使った平均値と中央値の求め方を調べて、下線部に入る式を埋めてみましょう。
ここで、添付演習問題の「分散と標準偏差」シートの問題を解いてみましょう。
Numpyを使った分散と標準偏差の求め方を調べて、下線部に入る式を埋めてみましょう。
ここで、添付演習問題の「偏差値算出」シートの問題を解いてみましょう。
以前学校で学んできた内容をもとにPythonでスクリプトを実行しながら確認できるのは面白いなと感じる方もいらっしゃるかもしれません。自分にできる範囲のものから少しずつPythonにも挑戦してみようかなと思っていただければ幸いです。
以上となります。
参考文献:
・谷尻かおり『文系プログラマーのためのPythonで学び直す高校数学』日経BP社(2021年)