はじめに
学習のアウトプットとして記載しています。誤りがあれば訂正します。大目に見てください
Pandas(パンダス)について
Pandasとは、Pythonというプログラミング言語でデータ分析を行う際に便利なライブラリの一つです。
ライブラリとは、エクセルのSUMやAVGのようなそれぞれ専門に特化した関数が大量に詰まった超お得パックです。
つまりPandasは分析をするときにデータを整理してくれる、お得パックということです。
Pandasを使うメリット
1.色んな型のデータを1つの表形式のデータで扱えること
例えば以下のような情報を含むデータがあるとします
- 名前(文字列型):創る
- 年齢(整数型):100
- 生年月日(日付型):1924-11-01
- 身長(浮動小数点型):120.5
- 免許はあるか(ブール型):False
このような種類の違うデータ型を同じデータフレーム(表形式のデータ)で表現することができます。
ようはエクセルです(?)
名前 | 創る |
---|---|
年齢 | 100 |
身長 | 120.5 |
免許はあるか | False |
2.データ加工や解析の便利機能が多いこと
データの中にはデータが欠損していたりするのですが、それらを削除や補完したりできます。
穴が開いたTシャツをおばあちゃん(Pandasの関数)が縫ってくれたり、汚れが付いた場所を引きちぎってなかったことにしてくれます。
Pandasインストール
PandasはPythonに入っていない外部ライブラリのためインストールする必要があります。
最初はプログラミングの知識がないので、学習する必要があるのと同じですね。
Windowsのコマンドプロンプトを開いて、下記の文字列を入力することでインストールできます。
pip install pandas
ちなみにpip(ピップ)はPythonのライブラリなどをインストール、管理するためのコマンドラインツールです。
Pandasを使う
Pandasを使うには最初にコードをインポートする必要があります。
import pandas as pd
#意訳 パンダスの機能使えるようにしてね、あとこれ以降「pd」ってあだ名で呼ぶね~
Pandasのデータの型
Pandasは二つのデータ型でデータを持っています。
1.Series(シリーズ)
2.DataFrame(データフレーム)
まずSeriesとは1列のみのデータ型です。
エクセルの縦1列を想像してください。そうあれなのです。(?)
import pandas as pd
A = pd.Series(['スライム','スライムベス','ホイミスライム','メタルスライム'])
#意訳 Aはパンダスのシリーズってデータの形で()内の要素があるデータだよ
print(A)
#意訳 Aを出力してね
"""
0 スライム
1 スライムべス
2 ホイミスライム
3 メタルスライム
"""
次にDataFrameとは縦と横からなるデータ型です。
ほぼエクセルです(?)
DataFrameの1列を抽出するとSeriesになります。
スライムがSeriesとするとキングスライムがDataFrameです。うんわかりやすい
import pandas as pd
df = pd.DataFrame({
'名前' :['スライム','スライムベス','ドラゴンスライム','メタルスライム'],
'色' : ['青', '赤', '黄','銀'],
'HP' : [10, 15, 30,5]
})
#意訳 dfはパンダスのデータフレームってデータの形で()内の要素があるデータだよ
print(df) #コンソールにdfを出力してね
print(df.dtypes) #データタイプ(各列のデータ型)を表示するコマンドだよ
#文字(object)なのか数字(int64)なのか他
print(df.columns) #カラム名(各列の名前)を出力してね
"""
名前 色 HP
0 スライム 青 10
1 スライムベス 赤 15
2 ドラゴンスライム 黄 30
3 メタルスライム 銀 5
名前 object
色 object
身長 int64
dtype: object
Index(['名前', '色', '身長'], dtype='object')
"""
ちなみにデータフレームに対応するデータがないとNaNとして扱われます。