Rによる機械学習
(ソフトウェア品質技術者のための)データ分析勉強会で、書籍『Rによる機械学習 (Machine Learning with R)』を使用して機械学習を学ぶ。
https://www.amazon.co.jp/dp/4798145114/
名古屋工業大学の知能情報システム学科にいたとき、以下の論文執筆に関わったいたことを思い出した。
- サッカー・エージェントの行動体系化と帰納学習の応用
- 自律エージェントの反復帰納学習におけるルール削除の一手法
インストール
RとRtoolsとRStudioをインストール。
https://k-metrics.github.io/cabinet/env_overall.html
パッケージはRのメニュー「パッケージのインストール」では、ダイアログが表示されずインストールできなかったので、コマンド install.packages("Rcmdr")
でインストール。
R-3.6.0 for Windows はいろいろ問題あるらしい。パッチもインストール。
https://cran.r-project.org/bin/windows/base/rpatched.html
RWekaとは、Wekaを呼び出す機能をもったパッケージ。
Wekaは、javaベースで作られている。機械学習に関連するAPI?をもっている。
RWekaのロードに失敗してしまった。
> library(RWeka)
エラー: package or namespace load failed for ‘RWeka’:
.onLoad は loadNamespace()('rJava' に対する)の中で失敗しました、詳細は:
call: fun(libname, pkgname)
error: JAVA_HOME cannot be determined from the Registry
パッケージrJavaとjavaをインストールしたらエラー解消・・・。
第1章 機械学習入門
抽象化と汎化を区別しているのが理解できていない。
「汎化は、将来のアクションで使えるように、理論の集合を少数の扱いやすい発見にまとめる。」というような説明があるが、これが理解できない。
過剰適合(=過学習)とは、過去データにぴったり当てはまる式を作っても、新たな実データが来たら式から大きく外れてしまうような状態か?
ステップワイズ法は汎化をしているということか?
第2章 データの管理と把握
RStudioのConsolでの入力は非常に楽。
Rにおける配列は、多次元の行列のこと。
RもExcelも不変分散。
https://stats.biopapyrus.jp/stats/var.html
Rの詳しい説明は以下にある。@sampoさんが、まとめてくれている。
https://k-metrics.bitbucket.io/mlwr_c02.html