More than 3 years have passed since last update.

新卒エンジニアが【Pythonエンジニアデータ分析試験】の模試を受けてみたら、、、

Last updated at 2023-03-24Posted at 2023-03-23

お久しぶりです！

前回はPythonエンジニア認定基礎試験を受験し、参考書なしで見事9割で合格することができました！！
→前回の記事はこちら

そして次なる目標として、タイトルにもある通り

Pythonエンジニアデータ分析試験を受験します！！！！

なので今後は前回同様、模試を受験して、その結果と直しを記事にしていきたいと思います。

現在の学習状況はこちら
・指定教材を２周読んだ
・AIについての基礎知識有
・本の内容を自分なりにまとめている

模試の直し

・DBSCAN法とは（教科書では特に言及はされていないのですが）「特徴量ベクトル間の距離に着眼した手法」つまりデータ間のそれぞれの特徴を基に学習する手法で教師なし学習

・回帰：目的変数連続
　分類：目的変数カテゴリ

・venvはPython自体のバージョン管理はできない

正規表現

?:0個か1個マッチ
|：どちらかがマッチ
[]：[]内のどれかがマッチ

retの中にある文字列が再現できればエラーは起きない。作れなかったらエラーを起こす。

JupyterLab

拡張子は.ipynb
データフォーマットはJSON形式

数学

sin:正弦
cos:余弦
tan:正接

マンハッタン距離

ベクトルの距離ではなく、行くまでの道のり
B(4,7)→4+7=11

ベクトル

行列の列の数とベクトルのサイズが同じ場合は、これらの掛け算を定義することができ、結果は、元の行列の行数と同じサイズのベクトルになる。

期待値

12面体のサイコロを1回振った場合の期待値
各目が出る確率を計算し総和
1+2+3+4+5+6+7+8+9+10+11+12/12=6.5

条件付確率とベイズの定理

確率密度関数と確率質量関数の確率変数

確率密度関数：連続
確率質量関数：離散的

np.dtype

int64,int32になる

@演算子、dot

[1 3]@[-1 5]=[-1+15]=14

pickle

DataFrameを直列化してファイルとして保存し、再利用するためにpickleモジュールを利用することができる。

pandas

freq=Mとすると行数12になる

fillnaメソッド

平均値、中央値、最頻値はmethod引数に指定せずにdf.mean,df.median,df.mode

pandas,numpy

DataFrameをNumPy配列に変換するには、values属性を利用する。この場合、インデックス名、カラム名は保持されない。

Matplotlib

同じフォントの指定を複数回繰り返す場合、フォントの設定を辞書データとして作成し、fontdict引数に一度に指定することができる。上書き可能。

np.arrange(0,1,25)

この場合、rangeとは違い1も含まれる

np.random.normal(mu,sigma,1000)

mu:平均値
sigma:標準偏差
1000：件数

次元削減

説明変数の次元数を減らして計算量を減らすこと

主成分分析

高次元のデータに対して分散が大きくなる方向を探して、元の次元と同じかそれよりも低い次元データに変換する手法

2次元のデータに対して主成分分析を行い、どちらも重要であると確認できた場合には、1次元に次元削減できる可能性が高いとはいえません。

分類モデル

機械学習を用いて構築した分類モデルの良し悪しを評価する指標に適合率、再現率、F値、正解率がある。これらは混同行列から計算する。

適合率は予想するクラスをなるべく間違えないようにしたいときに重視する指標である。

交差検証

10分割の交差検証を指定したため、最適な決定木の深さの値は毎回変わります。

iris.dataset

irisデータセットを出力してみると、0から149まで合計150個のアイリスの情報が記録されていることが確認できます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up