EDAをする際にpandasなどのライブラリを用いた文法
【環境】
【データ】
plotly_express に登録されている「Gapminder」
pandasを使って超初歩なデータ抽出
まずはデータ操作の準備
①pandasとplotly_expressをインポート
import pandas as pd
import plotly_express as px
②「Gapminder」のデータをデータフレーム化する
df = px.data.gapminder()
③どのようなデータか確認
df
たとえば、'year'のカラムに入っているデータを抽出したいとき
df['year']
locを使った抽出方法
'pop'列のデータをすべて抽出してみる。:(コロン)は「すべて」という意味。
df.loc[:, 'pop']
:ではなく、行を指定して抽出できる。
df.loc[2:30, 'pop']
'pop' だけでなく、リストを渡して複数のカラムを指定することもできる
df.loc[0:10, ['continent', 'pop']]
iloc = 'pop'のようなキーワードではなく、インデックス/カラム番号を指定して抽出する
df. iloc[:, 3]
カラム番号 3 の 'lifeExp' のデータが出力できる
loc 同様、リストを渡して複数のカラムを指定することもできる
df.iloc[:, [1, 2, 3]]
Tを使い、カラムとインデックスの配置を逆にする(転置)
df.T
本日は以上です。
最後までお読みいただき、ありがとうございました。