最新版は以下に記載しました。
https://hana-shin.hatenablog.com/entry/2023/10/19/224028
#1 pandasとは
pandasとは、データ分析用ライブラリです。
pandasで利用できるデータは、表計算ソフトExcelで扱うような表形式のデータです。
pandasを使うと、Excelなどのファイルから表形式のデータを読み込み、集計、データ抽出、
グラフの表示などが行えます。
#2 環境
VMware Workstation 15 Playerで作成した仮想マシン(1台)を使用しました。
CentOSの版数は下記のとおりです。
[root@server ~]# cat /etc/redhat-release
CentOS Linux release 8.3.2011
カーネルの版数は下記のとおりです。
[root@server ~]# uname -r
4.18.0-240.el8.x86_64
さらに、Anacondaをインストールして、Anacondaの仮想環境で各種動作確認をしました。
DockerやKubernetesのように、既存の環境に影響を与えることなくインストール、削除が
できるので便利だと思いました。
Anacondaのインストール方法は、Anacondaのインストール方法を参照してください。
#3 事前準備
スシの名前、価格、注文数を記録したcsvファイルを作成します。
なお、ika
の値段は意図的に空欄にしています。
(base) [root@server ~]# cat sushi.csv
sushi,price,orders
ikura,500,2
aji,400,4
uni,700,2
toro,800,4
ika,,2
saba,200,2
kohada,200,2
#4 csvファイルに対する操作
##4.1 csvファイルを読み込む方法(read_csv
)
csvファイルを読み込むためには、read_csv
メソッドを使用します。
read_csv
メソッドの引数には、csvファイルのパスを指定します。
tp.pyとcsvファイルは同じディレクトリにあるので、read_csv('sushi.csv')と指定します。
なお、スクリプト中のdf
はDataFrameを表しています。
Pandasには2つの主要なデータ構造があって、Series(シリーズ)が1次元のデータ、
DataFrame(データフレーム)が2次元のデータに対応しています。
(base) [root@server ~]# cat tp.py
import pandas as pd
df = pd.read_csv('sushi.csv')
print(df)
(base) [root@server ~]# python3 tp.py
sushi price orders
0 ikura 500.0 2
1 aji 400.0 4
2 uni 700.0 2
3 toro 800.0 4
4 ika NaN 2
5 saba 200.0 2
6 kohada 200.0 2
最新記事は以下に記載しました