More than 5 years have passed since last update.

初心者のためのpandas基礎⑧桁数処理

Posted at 2020-07-27

pandasとは

Pythonにて、構造化データ（テーブル型のデータ）を扱うためのライブラリです。ファイルの読み込みやその後の加工・抽出処理などを簡単に行うことができ（SQL的な感覚で行うことができ）、機械学習などのデータの前処理で必須となるライブラリです。
他項目への目次はこちらになります。

本記事では、桁数の処理方法です。はじめに理解して頂きたいこととして、pandasそのもの桁数を調整する方法と個別のデータフレームや変数の桁数を調整する方法があります。また、注意として、pandasの丸めは四捨五入ではなく、偶数への丸めとなります。偶数への丸めを知らない人は調べて下さい。

まずはライブラリをインポートします。pandasにpdという名前をつけてimportします。

import pandas as pd

サンプルはタイタニックのデータで試してみます。タイタニックがわからない人は｢kaggle タイタニック｣で調べて下さい。

dataframe = pd.read_csv('train.csv')

pandasの様々設定はoptionにて管理されます。(他にも様々なオプションがあるので興味がある方は調べて下さい。)全体の桁数はdisplay.float_formatで、小数点以下の桁数はdisplay.precisionで管理されています。
実際に確認してみましょう。

print(pd.options.display.float_format)
print(pd.options.display.precision)

Out

None
6

全体の桁数に制約はなく、小数点以下は6桁表示となっています。実際のデータをみてると、例えばFareは小数点以下四桁まで表示されています。これは元々のCSVのデータが4桁までしかないためこのような表示となっていますが、桁数が多ければ6桁までの表示となります。

次にこの値を変更し、小数点以下2桁表示にします。（Fareの表示が2桁になります）

pd.options.display.precision = 2

初期化をしたい場合はreset_optionを使いましょう。

pd.reset_option('display.precision')

個別の設定はround()を使います。小数点以下2桁にする場合は、下記になります。（Fareの表示が2桁になります）

dataframe.round(2)

列毎に設定する場合は下記になります。（例：Ageを1桁、Fareを3桁とする。）

dataframe.round({'Age':1, 'Fare':3})

初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。