前回の続き
一連の流れ[引用元(1)]
①デ―タセットをインポートまたは生成
②データを変換/正規化
③データセットをトレーニングセット、テストセット、検証セットに分割する
④アルゴリズムのパラメータを設定
⑤変数とプレースホルダーを初期化
⑥モデル構造を定義
⑦損失関数を設定
⑧モデルの初期化とトレーニング
⑨モデルを評価
⑩ハイパーパラメーターをチューニング
⑪デプロイと新しい成果指標の予測
これが全然わからんと。③からやっていく。
##③データセットをトレーニングセット、テストセット、検証セットに分割する。
データセットをトレーニングセット(このトレーニングセットデータを自分達が使おうって考えた機械学習アルゴリズムに入れて、自分たちのモデルのトレーニングに使おうってことらしい。モデルさんに何をしてあげればよくなるか訓練させるための部分て感じでいいんかな)、テストセット(さっきのトレーニングしたモデルさんのほんとの理想姿があるところ。このテストセットデータのモデルさんとトレーニングセットのモデルさんを近づけたいとのこと)、検証セット(これはトレーニングセットがうまくモデルさんを良くしているか検証してくれるぽい。テストセットでそれをやろうとすると答えで検証しちゃってるから既知の値には精度が良くなるけど、未知の値に対しても精度よくなるか不明になる。だから検証セットを使う。1を聞き1,2くらいしか知れない、機械学習)に分割する。分割ってどんな比率で分割するんだろね。6:2:2くらいらしい
##④アルゴリズムのパラメータを設定。
アルゴリズムはあれ、コンピュータの計算方法的な。
パラメータは外から入ってくる値のことらしく、中の値に影響を与えるもの事らしい。
ってことでアルゴリズム(コンピュータの計算方法)のパラメータ(外から中に影響を与える部分)の設定をいじる。
learning_rate(学習率かな),batch_size(ひとまとまりのサイズ),iterations(反復て翻訳出てきた)
これらの事らしい 詳しくはまたどこかでやる。
##⑤変数とプレースホルダを初期化
変数は値が変わっちゃうやつ、定数じゃない。変数はさっき③で書いたアルゴリズムのパラメータだって。
プレースホルダとは=実際の値を後から挿入するために、とりあえず確保した場所のこと。まだ正確な値が分かってないときに使う。
ふむ学校行く準備するか今日はここまで
(1):「Pythonベースの活用レシピ60+ TensorFlow 機械学習クックブック 2017年」p3-5