Rによるデータサイエンス 読書メモ その1 - 駄文型より。
――進化を続ける「R」を使い倒す!
R言語によるデータ解析の入門書.データサイエンスブームに先駆けた初版の発行以来,網羅性と実用性の高さから,多くのRユーザーに支持を得てきたロングセラー.Rのバージョンアップへの対応に加え,深層学習やネットワーク分析など,ますます充実するパッケージの解説を加えた第2版.
~こんな方に~
・因子分析・ネットワーク分析・深層学習などの分析手法をすぐに試したい
・Rを使うとどんなデータ解析ができるのか,一通り知っておきたい
・幅広いデータ解析手法・機械学習法を,Rで動かしながら体感的に学びたい
全体の感想
網羅的に手法をカバーしているので課題に対してどの手法を使うべきか?の検討に使うことができる。網羅的な分,説明が短いので入門書として使うのは厳しい。Rについても統計についても,すでにある程度知っている,あるいは昔学習したが忘れているくらいの知識レベルだとちょうどいい印象。Rの関数の使い方だけでなく,結果データの見方や手法の選び方も解説しているので実用性は高い。一度目を通しておけばリファレンスとして使えそう。さらに深く知りたければ参考文献に載っている各手法の専門書を読むとよさそう。
第I部 Rとデータマイニングの基礎
構文や基本的な関数など,基本のおさらい。統計の用語も軽く説明がある。Rを使ったことがあるが体系的に勉強してない or Rを久しぶりに使う など再入門にちょうどいい。初学者向けではない。
1章 データマイニングとR言語
- オブジェクト、関数、制御文、RStudio、パッケージ
2章 データの入出力と編集
- ベクトル、行列、データフレーム、配列、リスト
- 入力
read.csv
,scan
- 出力
write
,write.table
,sink
- 結合
rbind
,cbind
- 並び替え
sort
,rev
,sort.list
- よく使う関数一覧 p28
- データの尺度
- 量的データ: 間隔尺度、比例尺度
- 質的データ: 名目尺度、順序尺度
summary
3章 データの演算と固有値,基本統計量
- 算術演算,比較演算,論理演算,行列の演算
- 行列の内積
%*%
- 逆行列
solve
- 固有値,特異値分解
- 基本統計量関数 p37
- 行・列ごとに統計量をとる
apply
- 相関係数行列
cor
- 分散共分散行列
var
,cov
4章 データの可視化
- 棒グラフ,円グラフ,ヒストグラム,折れ線グラフ,箱ひげ図,散布図
- 作図環境とグラフの利用
- ここは無視してRStudio使った方がいいと思う
第II部 Rによるデータ解析・データマイニング
ここからが本題。
5章 主成分分析
- 多変数データを少ない変数に縮約する
princomp
6章 因子分析
- 変数間の相関関係から共通因子を求める
- 例: 教科(算数,理科,国語など)別の成績データから2つの因子(理系,文系)にまとめる
-
factanal
シンプルだがカスタマイズ性が低い,最尤法のみ -
psych
パッケージfa
因子の推定法を指定可能 - 因子の推定方法や回転方法によって結果が変わることがある
- 探索的に方法を変えて結果を見る必要がある
7章 対応分析
- わからん
8章 多次元尺度法
- MDS: Multi-Dimensional Scaling
- データの個体間の類似度or距離を2〜3次元に射影
- 個体 = 散布図の1点のイメージ
- データの構造やパターンを考察可能
- パッケージ
stats
関数dist
,cmdscale
9章 クラスター分析
- 個体や変数を分類する方法は教師ありと教師なしに大別される
- この章では教師なしの場合
階層的クラスター分析
- 樹形図(dendrogram)ができる
- クラスタリング法,凝縮型階層手法とも
- プロセス
- データから距離(あるいは類似度)を求める
dist
- クラスター分析の手法を選択
hclust
- コーフェン行列を求める
- 樹形図を作成
plot
- 結果について検討
heatmap
- データから距離(あるいは類似度)を求める
- 近い個体から順にペアにしてクラスタを作っていくようなイメージ
- クラスタ間の距離を求める必要がある
- クラスタ間の距離を求める手法(P110)
その他
- k平均法
kmeans
- モデルに基づいたクラスター分析
hclass
10章 自己組織化マップ
- わからん
11章 線形回帰分析
- 回帰分析とは: 説明変数をから目的変数を求めることができる統計モデルをつくる
- 例: BMI
- 線形回帰分析: 目的変数と説明変数を1次関数の関係としてモデル化
- 非線形回帰分析: 2次関数以上
- 線形単回帰分析
lm
- 最小二乗法
- 説明変数が1つ
- 線形重回帰分析
lm
- 単に
重回帰分析
と言った場合,線形重回帰分析を指す - 説明変数が複数
- 単に
12章 非線形回帰分析
- ロジスティック回帰
nls
- ロジスティック関数
y = a / (1 + b * e^cx)
を用いる
- ロジスティック関数
- 多項式回帰
nls
- 例えば3次多項式の場合
y = a + b * x + c * x^2 + d * x^3
- 例えば3次多項式の場合
- 一般線形モデル
glm
- 平滑化回帰
- わからん
13章 線形判別分析
- 判別分析: 学習データを用いて判別モデルを構築,所属不明の個体の識別に使う
- 線形判別分析は散布図にプロットされた個体を直線で分割するイメージ(p162 図13.1)
-
library(MASS)
lda
- 学習データとテストデータを分ける手法として
交差確認
がある-
lda
に引数CV=TRUE
を渡す
-
- 線形判別分析は等分散の制約条件があることと,大量の変数には向いていないため非線形判別分析に押され気味らしい
14章 非線形判別分析
library(MASS)
- 二次式による判別分析
qda
使い方はlda
とほぼおなじ - k 最近傍法が最も多く用いられる
- 近年では機械学習のアプローチによる判別分析が提案(15〜19章)
距離による判別分析
- 学習データからグループの中心を求め,未知の個体は中心との距離が一番小さいグループに属すると判別
- グループ数が3以上でも使える
- データの確率分布かの条件もない
- マハラノビス距離が多く用いられる
mahalanobis
k 最近傍法(k最近隣法,k-NN法) knn
library(klaR)
- 判別する個体の周辺 k 個の多数決でグループを決定
- 距離の測度としては
ユークリッド距離
が一般的 - k の値は何がいいか明確な基準はなく,データに依存
- 九工大の実証実験で使用
- センサーデータのクラスタリング
ベイズ判別法
- 個体がグループに属する確率を
ベイズ定理
で求め,最大のグループに属すると判別 - 分布条件あり
-
library(klaR)
NaitiveBayes
15章 ツリーモデル
- 回帰分析,判別分析の1つ
- 回帰木,分類木,決定木とも
- 説明変数の値を何らかの基準で分岐させ,判別・予測のモデルを構築
rpart
- ツリーのグラフ
rpart.plot
plot.party
fancyRpartPlot
-
rpart
のほかにtree
,ctree
パッケージもある-
ctree
は回帰木は作れない
-
16章 集団学習
- 複数のモデルを組合せて精度の高いモデルを構築する手法
- バギング
libraly(adabag)
bagging
- ブートストラップというリサンプリング法で複数の学習データセットを作成
- ブースティング
boosting
- 逐次重みの調整を繰り返す
- ランダムフォレスト
libraly(randomForest)
randamForest
- ランダムサンプリングしたデータに対してバギングを適用
- 精度および計算リソースの節約の面でバギングとブースティングより ◯
17章 カーネル法とサポートベクターマシン
- カーネル法:
カーネル関数
にりデータを別空間に射影- 別空間に射影すれば非線形データを線形モデルで分類できる可能性がある
- カーネル主成分分析
libraly(kernlab)
kpca
- 非線形成分分析とも
- サポートベクタマシン
ksvm
18章 ニューラルネットワーク
- 神経細胞(ニューロン)が多数並列に接続されたシステムを数理的にモデル化したもの
- 出力結果が目標値に近づくように重みを変える計算を繰り返す
- パターン認識,分類,ノイズが混在しているデータの処理が得意
- モデルの分類
- 教師あり ⇔ 教師なし
- 階層型ネットワーク ⇔ 非階層型ネットワーク
- 深層学習(ディープラーニング)は階層型
- コンピューターの性能向上とアルゴリズムの工夫により多層構造で計算できるように
- 中間層ありの NN パッケージ
nnet
深層学習
- 階層型ネットワークに属す
- 中間層を多く用いるため計算量が多い
- 画像認識,音声認識 → 畳み込みNN (CNN)
- 時系列データ → 再帰型 NN (RNN)
- パッケージ
ho2
darch
mxnet
deepnet
など- この本では
ho2
を例に
- この本では
- アルゴリズム,隠れ層の数,各層のユニット数,学習の回数をデータ構造に基いて決める必要がある
- 関連知識と経験が必要
19章 ネットワーク分析
- 何らかの関係の有無や度合いを分析
- グラフ理論に基礎をおいていいるためグラフ分析とも
- 隣接行列の作成
libraly(igraph)
graph.adjacency
- データフレームからグラフオブジェクトに変換
graph.data.frame
- ネットワークの統計量
- ノード数
vcount
- エッジ数
ecount
- 隣接ノード
neighbors
- 次数(自由度)
degree
- 密度
graph.density
- 中心性 定義によっていろいろ(次数中心性,接近中心性など)
- クラスターの係数
transitivity
隣り合うノードの間に三角形グループがいくつあるか - ニューマンの次数の相関係数
assortativity.degree
2つのノード間の次数の関連性 - 最短パス値
shortest.paths
- 平均パス
average.path.length
- ノード数
- 次数の平均,密度,中心性,クラスター係数などから複雑さを比較可能
- グラフ間の差分
graph.difference
- コミュニティ抽出 p244 表19.6
- オーバーラッピングを許すコミュニティ抽出
linkcomm
- ベイジアンネットワーク: 因果関係を推測
20章 アソシエーション分析
- マーケット・バスケット・トランザクションデータの分析
libraly(arules)
- 相関ルール
apriori
商品の組合せの規則を抽出 - 頻出アイテムの抽出
eclat
- 抽出結果の補助分析
dissimilarity
21章 時系列分析
- 時系列データ: 一定の時間間隔で測定・観測したデータ
libraly(stats)
- 時系列データの図示
ts.plot
- 自己共分散と自己相関
- スペクトル分析
spec.pgram
周期性を解析(トレンドやノイズを除去するようなイメージ) - 単位今検定
libraly(tseris)
adf.text
データがランダムウォークかどうか - AR(自己回帰)モデル
ar
- ARMA/ARIMAモデル
arima
ARモデルに誤差の移動平均を加えたモデル - 成分の分解
stl
トレンド,周期変動,残差に分解
22章 生存分析
- イベントが起きるまでの時間とイベントとの関係に焦点
- 機械システムの故障や患者の疾患,死亡を対象
libraly(survival)
- ノンパラメトリックモデル
survfit
- セミパラメトリックモデル
coxph
- パラメトリックモデル
survreg
- 共変量(時間以外の説明変数)の有無,分布を仮定するか否かに違い