#pandasとは
Pythonにて、構造化データ(テーブル型のデータ)を扱うためのライブラリです。ファイルの読み込みやその後の加工・抽出処理などを簡単に行うことができ(SQL的な感覚で行うことができ)、機械学習などのデータの前処理で必須となるライブラリです。
他項目への目次はこちらになります。
#はじめに
本記事では、桁数の処理方法です。はじめに理解して頂きたいこととして、pandasそのもの桁数を調整する方法と個別のデータフレームや変数の桁数を調整する方法があります。また、注意として、pandasの丸めは四捨五入ではなく、偶数への丸めとなります。偶数への丸めを知らない人は調べて下さい。
#準備
まずはライブラリをインポートします。pandasにpdという名前をつけてimportします。
import pandas as pd
サンプルはタイタニックのデータで試してみます。タイタニックがわからない人は「kaggle タイタニック」で調べて下さい。
dataframe = pd.read_csv('train.csv')
#pandasの桁数調整
pandasの様々設定はoption
にて管理されます。(他にも様々なオプションがあるので興味がある方は調べて下さい。)全体の桁数はdisplay.float_format
で、小数点以下の桁数はdisplay.precision
で管理されています。
実際に確認してみましょう。
print(pd.options.display.float_format)
print(pd.options.display.precision)
None
6
全体の桁数に制約はなく、小数点以下は6桁表示となっています。実際のデータをみてると、例えばFareは小数点以下四桁まで表示されています。これは元々のCSVのデータが4桁までしかないためこのような表示となっていますが、桁数が多ければ6桁までの表示となります。
次にこの値を変更し、小数点以下2桁表示にします。(Fareの表示が2桁になります)
pd.options.display.precision = 2
初期化をしたい場合はreset_option
を使いましょう。
pd.reset_option('display.precision')
#個別に設定する方法
個別の設定はround()
を使います。小数点以下2桁にする場合は、下記になります。(Fareの表示が2桁になります)
dataframe.round(2)
列毎に設定する場合は下記になります。(例:Ageを1桁、Fareを3桁とする。)
dataframe.round({'Age':1, 'Fare':3})
#最後に
初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。