目的
pyqで学んだことを忘れないために、メモを残す
pandas
描画について
・ヒストグラムを描画するときは plt.hist
plt.hist(df[df["y"] == 1]["x"], label="men 16years old", bins=100, range=(140, 187), alpha=0.3, color="green")
(dfはcsvのデータ)
- df[df["y"] == 1]["x"]
dfにおいて、列が y==1 の時の行の値 - label="men 16years old"
ラベルの説明 - bins=100
階級の幅 1階級 = range / bins - alpha=0.3
グラフの透明度
plt.xlabel("height [cm]")
: x軸のタイトル
plt.legend();
:データの説明を表示
・散布図を描画するときはplt.scatter
plt.scatter(men["height"], men["weight"], color="green")
第一引数に、データの中の横軸の値 第二引数に、データの中の縦軸の値
・散布図行列を描画するときは
pd.plotting.scatter_matrix(df)
DataFrame
・列の値を抽出する
df[["アルコール度数", "密度"]]
のようにカラムの名前を指定
df.iloc(取り出す行, 取り出す列)
df.ilocを使う
・データをトレーニング用、評価(テスト)用に分割
train_test_splitを使う
from sklearn.model_selection import train_test_split (X_train, X_test, y_train, y_test) = train_test_split( X, y, test_size=0.3, random_state=0 )
test_size=0.3 はデータの何割をテスト用にするか
random_state=0 データを分割する際の乱数のシード値 (普段は使わない)
決定木
決定木は、「自動で条件を学習するif文の連続」
Numpy
要素が同じ多次元配列の作成方法
zeros(サイズ) : 全ての要素が0の多次元配列
ones(サイズ) : 全ての要素が1の多次元配列
full(サイズ, 値) : 全ての要素が値の多次元配列
zeros_like(多次元配列) : 要素が全て0の多次元配列
ones_like(多次元配列) : 要素が全て1の多次元配列
full_like(多次元配列, 値) : 要素が全て値の多次元配列
連続データ
arange([start,] stop[, step,], dtype=None) :rangeと同じように連続データ作成
linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) :作成する範囲と個数numが決まっている場合の連続データ作成
単位行列と対角行列
numpy.eye:対角線が全て1の単位行列
numpy.diag:任意の対角行列
評価規準
評価規準は、物差しの種類である
評価基準は、物差しの目盛りである