はじめに
pandas
とは、データ分析やデータ操作に用いられるPython
のライブラリの一つです。この記事ではpandas
の基本的な使い方を簡単にまとめました。
Pandasのインストール
まずはインストールからです。
ターミナルを起動し、下記のコマンドを実行します。
install
pip install pandas
これでインストールが完了しました。
簡単ですね。
では、ちゃんとインストールされているか確認してみましょう。
Mac&Linux
python -c "import pandas as pd; print(pd.__version__)"
Windows
python -c "import pandas as pd; print(pd.__version__)"
上記を実行し、バージョンが表示されたらインストール完了しています。
Pandasの使い方
準備出来たので早速やってみましょう。
pandasを使用する為にimport pandas as pd
でインポートをします。
import pandas as pd
pandasは様々な形式のファイルからデータを読み込む事が出来ます。試しにCSVファイルを読み込み、データの確認をしてみましょう。
# CSVファイルの読み込み
df = pl.read_csv("data.csv")
# データの確認
print(df.head())
特定の行を表示することも可能です。
# 最初の5行を表示
print(df.head())
# 最後の5行を表示
print(df.tail())
そして、特定の列のデータを抽出したり、データのフィルタリングをする事も出来ます。
# 'sample'列のデータを表示
print(df['sample'])
# 条件に基づいてデータを抽出
filtered_df = df[df['sample'] > 10]
加工したデータを新規保存するには下記を実行する事で保存出来ます。
また、Excelファイルとして保存する事も可能です。
# データを新しいCSVファイルに保存
df.to_csv('output.csv', index=False)
# Excelファイルに保存
df.to_excel('output.xlsx', index=False)
まとめ
少々駆け足になりましたが、以上がpandas
の基本的な使い方になります。
pandas
はExcelの様にデータ操作が出来るので表形式のデータ処理が簡単かつ膨大なデータ量にも対応出来る優れたライブラリです。
pandas
を使いこなして、効率的なデータ分析を行っていきましょう。