#What
Chainerを利用して機械学習を学ぶにあたり、私自身が、気がついた点、リサーチした内容をまとめる記事になります。今回は、scikit-learnを勉強します。
私の理解に基づいて記述しているため、間違っている場合があります。間違いは都度修正するつもりです、ご容赦ください。
#Content
###Pandas
Pandas はデータ操作によく用いられるパッケージであり、CSV などの一般的なデータ形式で保存されたデータの読み込みや、条件を指定しての一部データの抽出など、機械学習手法で取り扱うデータを整理するのに便利です。
とまぁ計算ツールみたいなものですね。算盤とか電卓とか計算を楽にしてくれる道具的な立ち位置です。ちなみに下記の操作ができるみたいです。
・CSV ファイルの読み書き
・統計量の算出
・並べ替え
・データの選択
・条件指定による選択
・欠損値の除去 / 補間
・ndarray とデータフレームを相互に変換
・グラフの描画
パッケージの読み込みは下記、pandasライブラリをpdという名前で使いますという宣言
import pandas as pd
よく使われるcsv形式のファイルを例に取り、読み込みたい場合は下記、
# データセットの読み込み
df = pd.read_csv('ファイルパス')
ここで出てきたdf
はpandasで定義されているデータフレーム型(data frame) のデータ構造 (data structure) を表すクラス名です。 pd.read_csv() 関数は、CSV ファイルを読み込みます。
###Matplotlib
グラフを描けるライブラリ。折れ線、散布図、箱ひげなど。特筆すべき点は特に見当たらない。
またコード書きながら抑えるポイントが出てきたら追記します