機械学習を組み合わせて分析を行うにあたって
モデルの選定や目的がわからなくなることを防ぐための記録
##データ分析の目的とは。
東京都の騒音状況を理解・把握したい。
###視点①理解思考型or応用試行型?
理解思考型の考えから東京都の騒音状況の性質について考える。
→理解思考型モデルの最終的な目標としては現象・データ生成ルールの理解。
###視点②データ・変数の選択と調整
*理解思考型モデリングにおいての注意を踏まえ。
1.変数に関して次元の呪いがないかを確認。
2.離散値変数or連続値変数かを確認。
3.フィッシャーの三原則について
理解思考型モデリングにおいての仮定
「昼間等価騒音レベル80以上の地域に説明変数の値の相関性があった場合、
騒音状況が〜であるとわかる」
目的変数→昼間等価騒音レベル80db以上
説明変数→自動車騒音、高架下、線路付近、居酒屋などの飲食店
目的変数のメカニズムについて考える場合!
・確率モデルを利用する。
・決定論的な数理構造を用いて変数の振る舞いを記述する
| |離散値変数or連続値変数|
|:-:|:-:|:-:|:-:|
|昼間等価騒音レベル|連続値変数| | |
|夜間等価騒音レベル|連続値変数| | |
|車線数|連続値変数| | |
|道路種別|離散値変数| | |
|遮音壁等の有無|離散値変数| | |
|車道端からの距離|連続値変数| |
###視点③エージェントベースモデルからの予測
エージェントベースモデルでは、要素の振る舞いを記述する。
要素の振る舞いを表す方法として常微分モデルや確率過程モデルを利用。
<特徴>
・要素の間にネットワークがあり、つながっている相手に相互作用する。
<以下の要素から選んで考える>
時系列
車線数
周辺の建物によって一定の重みを加える。
1 | 2 |
---|---|
##実行内容
①一般的な理解試行型モデリングにおいて向いているデータの特徴について
・パラメータの数が少ない
・使用している関数が簡単
・モデルの各要素(数理構造・変数・パラメータ)が直感的に理解できる
・数理的に解析できる
###理解思考型モデリングにおいて注意
・変数などを作成特徴量エンジニアリングなどを行うとモデルの解釈性が下がったり、統計検定におけるp-hacking(所望の範囲のp値が出るまでデータをこねくり回すことのことを指す)につながったりするため、基本的には推奨されない。
・現実に何に対応するか説明できない変数に関しては排除する。
*数理モデルに関して、推論とそのモデルとの辻褄が合うことつまり演繹的な思考で結果の信頼性は証明できるがそれよりも前のなぜ推論したダイナミクスが生じているのか?という問題に対しては何も言えない。それを証明するためには、さらに掘り下げて考える必要がある。
NowLoading