ちょいちょい忘れてしまい、毎回google聞くのはしんどいなぁと思い以下にまとめておきます
ファイル読み込み(numpy)
いろんなやり化があることは承知ですが、numpyでやるには以下の通り
import numpy as np
data = np.loadtxt("XXXXXX.csv",delimiter=',')
読み込んだファイルをXとyに分ける方法(numpy)
上記のファイル読み込みの続きです。dataはn行3列で1行目がy値と過程すると、
y = data[:,0].astype("int")
X = data[:,1:2].astype("int")
グラフ描画(matplotlib)
import matplotlib.pyplot as plt
%matplotlib inline
plt.set_cmap(plt.cm.Paired)
plt.scatter(X[:,0],X[:,1],c=y,s=50)
indexの作成方法(numpy)
import numpy as np
idx = range(0,100) # 0から100までのインデクスができる
np.array(idx) #idxの表示
# idxを用いてデータを代入
X_train = X[idx]
シャッフルインデックスの作り方(sklearn)
from sklearn.model_selection import ShuffleSplit
ss = ShuffleSplit(n_splits=1,
train_size = 0.5,
test_size = 0.5,
random_state=0)
# Xにシャッフルしたい配列が入っている
train_idx, test_idx = next(ss.split(X))
分類(例えば1 or 0)の個数が何個あるかを調べる方法(numpy)
# ランダムに0 1を生成します
yClass = np.random.choice([0,1],size=500)
#数えてみます
np.unique(yClass, return_counts=True)
(array([0, 1]), array([264, 236], dtype=int64))
1つ目の配列がどんなユニークな分類があるかを示しています。2つ目の配列が0と1の個数を表示しています。ここで0:264個、1:236個 であることがわかります
ちなみに、2つ目の個数を取り出したい場合は、
np.unique(yClass, return_counts=True)[1]
array([264, 236], dtype=int64)
となります
【随時更新します】