昨日の話の最後で社会統計の 3 つのポイントを挙げましたが今日はその 1 つ目です。
データの分布を把握する
データの分布に関しては散布度で分布の散らばりを表すという内容で書きました。
データには離散変数と連続変数がありますが、離散変数の散らばりを示すには主に 度数分布表 (frequency distribution) を用いることが多いでしょう。
分布における位置とは、ある変数の特定の値が、当該変数の分布のどこに位置するかという意味です。これを表すにはパーセンタイルや分位数といったものを利用します。特に代表的な値が中央値と第一および第三四分位数です。
分位数とは、各カテゴリーが均等な比率になるように観測値を分割する値を指します。四分位とは観測値を 25% ずつに分割した値です。たとえばグループを十分割すれば十分位数、三分割すれば三分位数となります。
また、四分位数の 25 〜 75% の範囲を四分位範囲と呼びます。分布の形状にもよりますが、この範囲外を外れ値とみなすという単純な方法もあります。
標準得点 (z-score)
正規化は異なる基準の変数を互いに比較可能なように次元をそろえることです。
正規化の方法にはさまざまな方法がありますが、よく利用されるのが、確率分布関数で横軸を線形変換し平均を 0 、分散を 1 に変換する方法です。これを 標準得点 (standard score) または z 得点 と言います。
これは多変量解析の前処理としてもよく利用されます。
標準得点の使いところとしては、例えば毎日集計されるニュース情報の相対的な位置を求め、これを日々の他のデータと比較すると言ったふうに使います。
# SciPy で標準得点を求める
from scipy import stats
zscore = stats.zscore(df[1]) # データフレームの特定の列から z-score を求める
df[9] = zscore # この例では 9 列目に求めた標準得点を格納
ある日においてバズワードが発生し特定の単語が大量にあふれたとしても、どのニュースも同じキーワードを掲げているならば、それはまとまった上位集団として扱えば良いわけです。
たとえば以下のニューストップ 10 を見ると「仲間由紀恵」や「iOS 8」でバズが発生していることが一目瞭然です。この場合、これらのキワードを含むニュースが上位に集中しやすいので、これらの標準得点もほどほどになるわけです。
1 【速報】仲間由紀恵結婚 お相手は俳優 田中哲司 - ネットの海の渚にて
2 iOS 8をiPhone 4SやiPad 2に入れるとどれだけ遅くなるのか? - GIGAZINE
3 速報:アップル iOS 8 提供開始。新機能・改善点リスト - Engadget Japanese
4 iOS 8 特集 | 特集カテゴリー | Developers.IO
5 iOS 8で手書き日本語入力が可能に--MetaMoji、「mazec for iOS」を提供開始 - CNET Japan
6 iOS 8 の新機能のサンプルコード集『iOS8-Sampler』を公開しました - Over&Out その後
7 【特別寄稿】慰安婦問題の現状と安倍新内閣におけるこれからの対応 - 元外交官・東郷和彦 (1/2)
8 仲間由紀恵が田中哲司との結婚を発表「今まで通り仕事に励む」
9 仲間由紀恵が田中哲司と結婚 交際6年13歳差婚と日刊スポーツが報じる
10 業界内では手が早い? 仲間由紀恵の結婚相手・田中哲司「お泊り」前科
みんなが試験で高得点を取ったら偏差値はそれほどでも無いのと一緒です。
まとめ
今回は分布の把握についてざっくりと説明しました。これはそれほど難しくないのですが、分布の形状からモデルを推定するとなるとぐっと必要な知識が増えてきます。