お久しぶりです!
前回はPythonエンジニアデータ分析試験の模試を受験してみました!!!
結果は前回の記事をご覧ください。
→前回の記事はこちら
今回はPython模擬試験の第3回を受けてみました!
結果は、、、
80点/100点満点
前回より下がってしまいましたが合格ラインです!!
今回も直しを備忘録として残します。
模試の直し
pandas
R言語からのインスパイアのデータフレームを採用
logging
デフォルトの出力は WARNING以上
∴WARNING ERROR CRITICAL
numpy
b[0:1, [1,2]]
0~1行目
[1,2]は2列目,3列目
pandas
read_htmlメソッドを使うと、WebサイトのHTML内のtable要素をDataFrameに取り込むことができる。read_htmlの結果はDataFrameのリストになっており、table要素が複数ある場合もインデックス番号を指定することで目的のテーブルを取得できる。
nunpy
df_year = pd.DataFrame(df.groupby(pd.Grouper(freq='W-MON')).sum(), columns=["rand"] )
df_yearを出力すると、rand列の各値は月曜日から日曜日までのrand列の値を合計したものとなる。
↓
df_yearを出力すると、rand列の各値は火曜日から月曜日までのrand列の値を合計したものとなる。
matplotlib
・棒グラフとは異なり、ヒストグラムでは複数の値を指定すると、自動的に横に並んだ状態で表示される
・散布図では、デフォルトではそれぞれのマーカーは丸で描画されるが、marker引数にマーカーの形を指定することにより、様々な形のマーカーを使用することができる。
・サブプロットはグラフの本数ではなく、メモリグラフの個数
情報利得
親ノードの不純度-子ノードの不純度
Irisデータセット
花の種類は目的変数、それ以外が説明変数
評価
適合率:なるべく間違えたくない時
再現率:網羅性