Pandas DataFrameの基本と使い方
Pythonのデータ分析ライブラリであるPandasは、データを効率的に操作できるデータ構造としてDataFrameを提供しています。この記事では、DataFrameの基本的な概念とその使い方を紹介します。
DataFrameとは?
DataFrameは、2次元のラベル付きデータ構造で、行と列を持つテーブル形式のデータを扱うために使用されます。表形式のデータ(CSVやExcelファイル、SQLクエリの結果など)を処理する際に非常に便利です。基本的には、列ごとに異なるデータ型(整数、浮動小数点数、文字列など)を持つことができ、データ操作の際に豊富な機能を提供します。
Pythonの辞書からDataFrameを作成
最も簡単な方法の一つは、Pythonの辞書を使ってDataFrameを作成する方法です。辞書のキーが列名、値が列のデータになります。
import pandas as pd
# 辞書からDataFrameを作成
data = {
'名前': ['Alice', 'Bob', 'Charlie'],
'年齢': [25, 30, 35],
'職業': ['Engineer', 'Doctor', 'Artist']
}
df = pd.DataFrame(data)
print(df)
出力:
名前 年齢 職業
0 Alice 25 Engineer
1 Bob 30 Doctor
2 Charlie 35 Artist
DataFrameの基本操作
列へのアクセス: DataFrameの列は、カラム名でアクセスできます。
# '名前'列にアクセス
print(df['名前'])
まとめ
PandasのDataFrameは、データを効率的に扱うための強力なツールです。行列形式のデータを簡単に操作、集計、フィルタリング、並べ替え、保存することができ、データ分析において欠かせない存在です。
この記事で紹介した基本的な操作を理解しておけば、Pandasを使ったデータ分析の際に非常に便利に使うことができるようになります