はじめに
初めまして!
技術・プログラミング初心者のTim(てぃむ)です。
今後は、自身で学び始めて分かったこと・習得したこと等を初心者ならではの視点でお伝えできればなと思っております。
記事をご一読いただいた上で、意見/指摘/アドバイス等々いただけるととても嬉しいです!
よろしくお願いいたします。
本題
今回は、最近学び始めたデータサイエンスの分野です。
Pythonでデータ分析を行う際に、必要なコードを簡単に綴っていこうと思います。
複数回に分けて随時投稿していきます。
記念すべき第1回です!
データフレームの行列・列数の確認
df.shape
import pandas as pd
#csvファイルの読み込み
df = pd.read_csv('test.csv')
df.shape
print("行数,列数", df.shape)
出力例
行数,列数 (450, 8)
データのサイズ(行数x列数)の確認
df.size
size関数の返り値は行数x列数ですが、これは欠損値(NaN)を含んだデータの個数です。
import pandas as pd
#csvファイルの読み込み
df = pd.read_csv('test.csv')
df.size
print("データのサイズ", df.size)
出力例
データのサイズ 3600
ユニーク数の確認
df[“列名”].nunique()
ユニーク数とは、特定の列に含まれる要素の「種類」の数を表します。
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["列名"].nunique()
df["都道府県"].nunique()
print("都道府県の数", df["都道府県"].nunique())
出力例
都道府県の数 44
ユニークな要素の一覧
df[“列名”].unique()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["列名"].unique()
df["都道府県"].unique()
print("都道府県のユニークな要素", df["都道府県"].unique())
出力例
都道府県のユニークな要素 ['北海道' '青森県' '岩手県' '宮城県' '秋田県' '山形県' '福島県' '茨城県' '栃木県' '群馬県' '埼玉県' '千葉県'
'東京都' '神奈川県' '新潟県' '富山県' '石川県' '福井県' '山梨県' '長野県' '岐阜県' '静岡県' '愛知県' '三重県'
'滋賀県' '京都府' '大阪府' '兵庫県' '奈良県' '和歌山県' '島根県' '岡山県' '広島県' '山口県' '香川県' '愛媛県'
'福岡県' '佐賀県' '長崎県' '熊本県' '大分県' '宮崎県' '鹿児島県' '沖縄県']
特定の列の「要素別の頻度(出現回数)」の確認
df[“列名”].value_counts()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["列名"].value_counts()
print("都道府県別の頻度", df["都道府県"].value_counts())
出力例
都道府県別の頻度 東京都 56
神奈川県 39
愛知県 36
埼玉県 34
大阪府 33
兵庫県 21
...
要素別のデータ数を「昇順」で表示
df[“列名”].value_counts(ascending=True)
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["列名"].value_counts(ascending=True)
print("都道府県別の頻度", df["都道府県"].value_counts(ascending=True))
出力例
都道府県別の頻度 山形県 1
宮崎県 1
青森県 1
岩手県 2
熊本県 2
佐賀県 2
...