お久しぶりです!
前回はPythonエンジニア認定基礎試験を受験し、参考書なしで見事9割で合格することができました!!
→前回の記事はこちら
そして次なる目標として、タイトルにもある通り
Pythonエンジニアデータ分析試験を受験します!!!!
なので今後は前回同様、模試を受験して、その結果と直しを記事にしていきたいと思います。
現在の学習状況はこちら
・指定教材を2周読んだ
・AIについての基礎知識有
・本の内容を自分なりにまとめている
模試の直し
・DBSCAN法とは(教科書では特に言及はされていないのですが)「特徴量ベクトル間の距離に着眼した手法」つまりデータ間のそれぞれの特徴を基に学習する手法で教師なし学習
・回帰:目的変数連続
分類:目的変数カテゴリ
・venvはPython自体のバージョン管理はできない
正規表現
?:0個か1個マッチ
|:どちらかがマッチ
[]:[]内のどれかがマッチ
retの中にある文字列が再現できればエラーは起きない。作れなかったらエラーを起こす。
JupyterLab
拡張子は.ipynb
データフォーマットはJSON形式
数学
sin:正弦
cos:余弦
tan:正接
マンハッタン距離
ベクトルの距離ではなく、行くまでの道のり
B(4,7)→4+7=11
ベクトル
行列の列の数とベクトルのサイズが同じ場合は、これらの掛け算を定義することができ、結果は、元の行列の行数と同じサイズのベクトルになる。
期待値
12面体のサイコロを1回振った場合の期待値
各目が出る確率を計算し総和
1+2+3+4+5+6+7+8+9+10+11+12/12=6.5
条件付確率とベイズの定理
確率密度関数と確率質量関数の確率変数
確率密度関数:連続
確率質量関数:離散的
np.dtype
int64,int32になる
@演算子、dot
[1 3]@[-1 5]=[-1+15]=14
pickle
DataFrameを直列化してファイルとして保存し、再利用するためにpickleモジュールを利用することができる。
pandas
freq=Mとすると行数12になる
fillnaメソッド
平均値、中央値、最頻値はmethod引数に指定せずにdf.mean,df.median,df.mode
pandas,numpy
DataFrameをNumPy配列に変換するには、values属性を利用する。この場合、インデックス名、カラム名は保持されない。
Matplotlib
同じフォントの指定を複数回繰り返す場合、フォントの設定を辞書データとして作成し、fontdict引数に一度に指定することができる。上書き可能。
np.arrange(0,1,25)
この場合、rangeとは違い1も含まれる
np.random.normal(mu,sigma,1000)
mu:平均値
sigma:標準偏差
1000:件数
次元削減
説明変数の次元数を減らして計算量を減らすこと
主成分分析
高次元のデータに対して分散が大きくなる方向を探して、元の次元と同じかそれよりも低い次元データに変換する手法
2次元のデータに対して主成分分析を行い、どちらも重要であると確認できた場合には、1次元に次元削減できる可能性が高いとはいえません。
分類モデル
機械学習を用いて構築した分類モデルの良し悪しを評価する指標に適合率、再現率、F値、正解率がある。これらは混同行列から計算する。
適合率は予想するクラスをなるべく間違えないようにしたいときに重視する指標である。
交差検証
10分割の交差検証を指定したため、最適な決定木の深さの値は毎回変わります。
iris.dataset
irisデータセットを出力してみると、0から149まで合計150個のアイリスの情報が記録されていることが確認できます。