More than 5 years have passed since last update.

Excelでこんなことやってたよなー、をPythonに置き換える

Last updated at 2020-05-19Posted at 2020-05-19

メモ書き、これまでexcelで頑張ってたことをPythonに置き換える中で調べたことをメモメモ
pandasとnumpy使えるようにトレーニング中
超初心者なのでこれが最適なのかは不明、今後の自分に期待

データを連結させる(縦方向)

pd.concat([dfA, dfB], ignore_index=True)

ignore_index=True　でindexをふり直し。こーゆーの一気にできるのが嬉しい。

pd.merge(dfA,dfB[["columnA","columnB","columnC" ]],on = "columnA", how="left")

dfAにdfBを結合。onで結合する際のキーを指定。howで結合方法を指定。
似たようなものにjoinというのもあったけどとりあえずパス。あとで調べる。

pd.merge(dfA, dfB, left_on = "columnA", right_on = "columnB", how="left")

left_onとright_onでカラム名指定する

df['sales'] = df['quantity'] * df['price']

作る列名を指定して、単純に掛け算。売上は英語でsalesであってるのか。知らん。

df.describe()

これほんと便利。Pythonに置き換える決意して良かったと思う瞬間。

zzz = df['datetime'].astype(str).str.isdigit()
xxx = pd.to_timedelta(df.loc[zzz, 'datetime'].astype('float'), unit='D')+pd.to_datetime("1900/01/01")

１行目で数値データとして取り込んでしまったものを特定している。.str.isdigit()は「全ての文字が数字なら真、そうでなければ偽」
２行目で数値をDatetime型に変換。to_timedeltaでDatetime型に変換。

yyy = pd.to_datetime(df.loc[~zzz, 'datetime'])

区切り文字とかが違うかもしれないので１でやった処理と同様にdatetime型にする。
~zzzでzzzじゃないところ。つまり ~zzz = (zzz = False)

df['datetime'] = pd.concat([xxx, yyy])

変換したデータを結合して元のデータ列にあてこむ。これは便利だ

df['datetime']  = pd.to_datetime(df['datetime'])
df['month'] = df['datetime'].dt.strftime('%Y%m')

1行目でdatetime型に変換して、２行目で年月だけを取り出す。
.dt.strftimeで時刻を文字列に変換。
2020/4/1 →　202004
となる。

df.groupby('month').sum()['sales']

groupbyでまとめたい列を指定。その後に集計方法。売上だけ表示したいので['sales']を記載。
え、まって、めっちゃ楽。
groupbyは階層集計にすることもできる

df.groupby('month','product_name').sum()['sales']

月別商品別集計のできあがり

pd.pivot_table(df, index='product_name', columns='month', values=['sales'], aggfunc='sum')

長いけどやりたいことを１つ１つ記述しているのでわかりやすい。
行に商品名、列に年月、値は売上、aggfuncは値の集計方法。Excelでやってる時と操作イメージは全く同じ

df['product_name'].str.upper()
df['product_name'].str.lower()
df['product_name'].str.capitalize()

1つ目が小文字を大文字に、２つ目が大文字を小文字に、３つ目が先頭文字だけ大文字あとは小文字に
結構使う

df['product_name'].str.replace('　','')

.str.replaceは文字置き換え。空白を何もない状態に置き換えてる。これも便利

.df.isnull().any(axis=0)

これで各列に欠損値があるかわかる。True or Falseで返ってきます。axisの方向が覚えられなくて辛い。

Excelに比べて慣れると操作が格段に早く、何より検算がかなり早くできる印象。
データ分析前の処理をもっと早くできるように精進しよう。