Pythonのデータ分析でよく使うデータ型:基礎から応用まで
Pythonは、データ分析において非常に強力なツールとして広く利用されています。その魅力の一つに、多様なデータ型を柔軟に扱える点が挙げられます。本記事では、Pythonのデータ分析で頻繁に利用されるデータ型について、その特徴や具体的な使用例を交えて解説します。
Pythonにおけるデータ型の基礎
Pythonのデータ型は、大きく分けて数値型、文字列型、論理型、そしてPython特有のオブジェクト型に分類されます。
1.数値型
int: 整数型。通常の整数値を表します。
a1 = 1
print(type(a1))
実行結果
<class 'int'>
float: 浮動小数点型。小数点を含む数値を表します。
a2 = 1.14
print(type(a2))
実行結果
<class 'float'>
complex: 複素数型。虚数を含む数値を表します。
a3 = 3 + 4j
print(a3)
print(type(a3))
実行結果
(3+4j)
<class 'complex'>
実部と虚部を分けて表示させる場合、以下の結果になる。
実部
print(a3.real)
print(type(a3.real))
実行結果
3.0
<class 'float'>
虚部
print(a3.imag)
print(type(a3.imag))
実行結果
4.0
<class 'float'>
2.文字列型
str: 文字列型。文字の並びを表します。
s = 'finance'
print(s)
print(type(s))
実行結果
finance
<class 'str'>
3.論理型
bool: 真偽値型。TrueまたはFalseの値を取ります。
a = 100
b = 200
print(a < b)
print(type(a < b))
実行結果
True
<class 'bool'>
a = 100
b = 200
print(a > b)
print(type(a > b))
実行結果
False
<class 'bool'>
4. オブジェクト型
list: リスト型。順序付きの要素の集合を表します。
リストの最後がカンマ(,)で終了しても動作します。
list = ['Google', 'Amazon', 'Facebook','Apple','Microsoft',]
print(list)
print(type(list))
実行結果
['Google', 'Amazon', 'Facebook', 'Apple', 'Microsoft']
<class 'list'>
tuple: タプル型。不変の順序付きの要素の集合を表します。
リストと同様、タプルの最後がカンマ(,)で終了しても動作します。
tuple = ('Google', 'Amazon', 'Facebook','Apple','Microsoft',)
print(tuple)
print(type(tuple))
実行結果
('Google', 'Amazon', 'Facebook', 'Apple', 'Microsoft')
<class 'tuple'>
dict: ディクショナリ型。キーと値のペアの集合を表します。
dict = {'GOOG':'Google',
'AMZN ':'Amazon',
'META':'Facebook',
'AAPL':'Apple',
'MSFT':'Microsoft',
}
print(dict)
print(type(dict))
実行結果
{'GOOG': 'Google', 'AMZN ': 'Amazon', 'META': 'Facebook', 'AAPL': 'Apple', 'MSFT': 'Microsoft'}
<class 'dict'>
set: セット型。重複のない要素の集合を表します。
set = {'Google', 'Amazon','Facebook','Apple','Microsoft','Google','Apple',}
print(set)
print(type(set))
実行結果
{'Facebook', 'Microsoft', 'Amazon', 'Google', 'Apple'}
<class 'set'>
DataFrame: pandasライブラリで利用される、表形式のデータ構造です。
import pandas as pd
df = pd.DataFrame({"a":[1, 2, 3],
"b":[4, 5, 6]
})
print(df)
print(type(df))
実行結果
a b
0 1 4
1 2 5
2 3 6
<class 'pandas.core.frame.DataFrame'>
Series: pandasライブラリで利用される、1次元配列のようなデータ構造です。
import pandas as pd
df = pd.Series({"a":[1, 2, 3],
"b":[4, 5, 6]
})
print(df)
print(type(df))
実行結果
a [1, 2, 3]
b [4, 5, 6]
dtype: object
<class 'pandas.core.series.Series'>
データ分析では、扱うデータの種類によって適切なデータ型を選択することが重要です。
まとめ
Pythonのデータ分析では、様々なデータ型が利用されます。
データの分析、特性に合わせて適切なデータ型を選択することで、
より効率的かつ正確な分析を行うことができます。
本記事では、Pythonのデータ型の基礎と、pandasにおけるデータ型の扱いについて解説しました。