Rはかなり前に挫折してそのまま放置していたのでNagoya.R #12に参加しました。とはいえ聞いていただけなのです。
Rprofile 作成のすすめ
-
CRAN(しーらん): Rのpackageのリポジトリ。ミラーたくさん。
-
デフォルトだとRが終了するたびにリセットされる。悲しい上に面倒くさい。
-
作業フォルダに
.Rprofile
というファイルを作成して、そのなかに起動時に実行するスクリプトを書いておくことで解決。 -
いつも定義するようなものは
.Rprofile
に書いてしまおう
class(Q)=Q="no";print.no=q
非線形の相関関係を検出する指標の算出
-
線形な関係: アイスの売上と気温の関係
-
非線形な関係: スポーツにおける緊張と成績(逆U字の関係)
-
積率相関係数(いつもの相関係数)は線形の相関を想定するため、非線形の相関は検出できない
-
MIC(Maximal Information Coefficient: 最大情報係数)は非線形に対応
- 相互情報量が最大になるようにグリッドを分割して計算
- Y = sin(X) のような相関
-
Rのパッケージでは
minerva
で提供されているmine
で計算可能 -
いくつかの指標
- MIC: R^2 に相当
- MICR2: 積率相関係数との差を表示
- MAS: 単調性の指標
-
MICの弱点
- ビッグデータ前提
- 関係性の強さはわかるが値がどう変わるかは不明
Rを用いた一般化可能性理論
- 一般化可能性理論: 主観的評価における測定方法やテストの適切さを図る方法の一つ
- 項目数や被験者数の
- まあいいだろうという値は0.6
- ブログからコピペで使える
一般化線形混合モデル入門の入門
- スライド
- lme4の使い方
install.packages("lme4")
library(lme4)
lmer(x ~ y + z, data = ratings)
- lmerTestパッケージ: lme4パッケージ(作成者はアンチp値)にないp値の計算用パッケージ
- step関数 : モデルからモデルフィッティングに寄与しない変数を削除し、モデルを提供してくれる。便利。
Rでテキストマイニング
-
tmパッケージを利用
-
いろんな形式のデータを利用可能(WebとかOfficeとかPDFとかいろいろ)
-
tm_mapを使って、前処理できる
- 大文字を小文字にしたり
- gsub(正規表現を使ったテキスト変形関数)を使って処理したり
- snowballCパッケージを使って、stemDocumetsを使って語句の変化を消去したり
- 機能語(Stop words)を消去したり(removeWords, Stopwords)
- stripWhitespaceで空白を削除したり
-
頻度の分析: DocumentTermMatrix()
非線形回帰(レーベンバーグ・マルカート法)と信頼区間(ブートストラップ法)
-
結論: 非線形回帰した場合、信頼区間はブートストラップ法を使うと簡単に求められる
-
nlsでできるが、データに異常値があったりするとエラーが頻発してしまって辛い
-
minpackのnls.lm関数を利用
-
rm(list=ls())はスクリプトの頭につけるのを癖にしておくのがよい
- 今までに作成した変数の定義を消去
-
ブートストラップ法自体はスクリプトで実装
モザイクプロットいかがですか
- 分割表で利用
- mosaicplot()関数を利用して描画する
- 分割表の解析結果を可視化する関数
- 可視化大事
最後に
- 前半ぶっちぎって後半から参加したけれど前半も出ればよかった
- ブートストラップの泥臭さと力強さすごい
- 統計は理論の説明って難しいんだなあと改めて実感
主催してくださった川口勇作さんありがとうございました!