LTから参加してきました。前回に引き続き2回めです。
1. rlistパッケージのススメ
Tamura(@tam07pb915)さん
rlist パッケージとは
- リスト形式のデータで作業する際に便利なパッケージ。
- 作業範囲は抽出・欠損値処理・整形・並び替えが対象。
リスト形式とは何か
- リスト形式 : 再帰的なデータ構造を持つもの
- Jsonフォーマット、YAMLフォーマットはこれ
- rlist+Json+YAMLでJSONフォーマットのデータが扱える
補足
- 依存パッケージはlibrary("rlist")で導入可能
- rlist tutorialを見ると結構詳細に書かれている
pipeR
- pipeRを使うとパイプライン演算子(
%>>%
)が利用できる
2. applyを使おう
applyはなにか
- map関数的な動作をする
-
apply(data, 2, mean)
とするとdataの列で平均をとった配列が表示される
データ形式の指定
- 第二引数の値を変えると、第三引数に受け渡すデータの形式を指定できる
- 1 : 行
- 2 : 列
- 1:2 : 行列要素
- 3 : 3次元配列
実行速度
- 適当に書いたforループよりは早くなる
- 最適化をかけてコンパイルまでするとforループに利点が出てくる
3. メタ分析の工程を自動化するRスクリプトの作成
メタ分析とは
- 略
モデルの種類
- 固定効果モデル : 母集団における真の効果料は固定された値と仮定(あまり使われない)
- 変量効果モデル(ランダム効果モデル) : もともと真の効果料もばらつきがあると仮定
- 混合効果モデル : 固定された値になるもの、ならないものがあると仮定
好評バイアスの検定
- trim-and-fill method
自動化
- 独立変数、調整変数を変更するたびにスクリプトを書くのは辛い
- 外部ファイルにパラメーターを追い出して自動化
- この作業地味に辛い、ファイルへの入出力を定義しなきゃいけないし
tips
- 画像を生成するスクリプトを作成する場合、devoffをループの最後に書いておくと良い
- ファイルがRにより開かれたままになってしまい、消せなくなってしまうため
4. 分類器とその応用
タイタニック号の乗客の生死判定問題
- 出典 : kaggle
- 名前、等級、性別、年齢、生死から判定
分類器
- 学習用データを用意し、様々な手法(ロジスティック回帰、SVM、ニューラルネットワークなど)で二値分類
- 結果、ロジスティック回帰が健闘する結果に
- 学習時のチューニングで結果は改善できる可能性あり
疑問
- ニューラルネットワークの「結果」が一定しないということだったけれど、中間層はともかく結果はあんまりブレなかった印象がある
今後取り組みたいこと
- Pythonで統計やりたい
- Rっていうよりも、どんな問題に取り組んだのかっていう統計っぽい話をもっと聞きたいなあ