はじめに
統計検定2級合格に向けてQiitaで出題範囲内の各種テーマを11回に渡ってまとめてきました。
今回は過去記事で押さえることができていなかった複数のテーマの洗い出しになります。
クロス集計表
ネットリサーチで獲得した回答データの結果を確認するには「集計」という作業を行います。
集計には、一番基本的で設問ごとのトータルを表す**「単純集計」**と、回答結果を細分化して把握するために、**設問と設問を掛け合わせる「クロス集計表」**の2種類が存在します。
クロス集計表では、左側の部分を**「表側(ひょうそく)」、上側の部分を「表頭(ひょうとう)」**と言います。
画像引用:クロス集計 – アンケート集計ならトリム
時系列データ
時間の経過に従って測定されたデータを**「時系列データ」**と言い、4つの変動に区分されます。
① 傾向変動▶︎長期間にわたる基本的な変動傾向・移動平均法や最小2乗法によって算出
② 循環変動▶︎周期は一定ではないが、周期的に繰り返される上下運動・経済活動による景気変動などが該当
③ 季節変動▶︎周期を1年とする規則的な変動
④ 不規則変動▶︎天災のような予測が困難な偶然変動
ローレンツ曲線とジニ係数
所得の累積相対値を縦軸に、世帯数の累積相対度数を縦軸にとり、**「所得分配の不平等度」などを視覚的に捉えるためのグラフを「ローレンツ曲線」**と言います。
格差が0の時、ローレンツ曲線は45度線の**「完全平等線」に沿った直線になり、「ジニ係数(ローレンツ曲線と完全平等線とで囲まれた面積の"2倍"・所得の不平等さを測る指標)」**は0になりますが、格差が大きくなるとローレンツ曲線は完全平等線からの乖離が大きくなり、ジニ係数の値も大きくなります。
- ジニ係数が0▶︎格差は0・全員の富が等しい
- ジニ係数が1▶︎格差は最大・1人が全ての富を独占している(1.0 × 1.0 × 1/2 × 2 = 1)
フィッシャーの3原則
出来るだけ少ないコストで良い実験結果を得るために、最も効果的な実験計画を立てる上で、フィッシャーが以下の実験計画法に関する3つの原則(「フィッシャーの3原則」)を確立しました。
① 反復
1回の実験では測定値に違いがあっても、それを処理の問題による誤差である**「系統誤差」なのか偶然生じる誤差である「偶然誤差」**なのかを判定することはできません。反復、つまり何度も実験を繰り返すことによって、偶然誤差の大きさを評価することができます。
② 無作為化
実験の順序や場所などが複数ある場合に、比較したい処理群を無作為に(ランダムに)割り付け、目的とする要因以外に結果を与える要因の影響を取り除くことで、系統誤差を偶然誤差に取り込むことができます。
③ 局所管理
実験結果に影響を及ぼす可能性のある要因を、実際のブロック内では出来るだけ均一になるように実験ブロックを小分けにすること。局所管理によって系統誤差を小さくすることができます。
「反復」「無作為化」「局所管理」という「フィッシャーの3原則」に基づいた実験デザインを**「乱塊法」**と言います。
さまざまな指数
数値の変化や大小を比率で表したものを**「指数」**と言います。
物価の変動を表す「物価指数・価格指数」は、基準年の物価を100として比較年の物価を相対的に表した値として算出されます。
ラスパイレス指数
価格指数において、基準年の数量や価格を重みとして算出したものを**「ラスパイレス指数」と言います。分子と分母で数量に関しては「基準年数量」**で同じである部分に注意です。
ラスパイレス指数=\frac{Σ(基準年数量×比較年価格)}{Σ(基準年数量×基準年価格)}
パーシェ指数
価格指数において、比較年の購入量や取引量等を重みとして算出したものを「パーシェ指数」と言います。分子と分母で数量に関しては**「比較年数量」**で同じである部分に注意です。
パーシェ指数=\frac{Σ(比較年数量×比較年価格)}{Σ(比較年数量×基準年価格)}
フィッシャー指数
ラスパイレス指数とパーシェ指数の幾何平均によって算出したものを「フィッシャー指数」と言います。
フィッシャー指数=\sqrt{ラスパイレス指数×パーシェ指数}
- ラスパイレス指数▶︎**「基準年数量」**は分母・分子ともに同じである
- パーシェ指数▶︎**「比較年数量」**は分母・分子ともに同じである
- フィッシャー指数▶︎ラスパイレス指数とパーシェ指数の幾何平均
正規性の確認
母平均の推定のように、データが正規分布に従うことを仮定する統計手法では、「ヒストグラムを描く」「Q-Qプロットを描く」「正規性の検定」を行うという方法で、**「データが正規分布に従う」という「正規性」**を確認することができます。
Q-Qプロットは、データが正規分布しているか(正規性)を判断するためのプロットです。横軸は、「データの期待値を標準化した値(正規分布の理論値)」で、縦軸は「データの値」を表します。データが正規分布をしている場合、データ点が以下のように一直線に並びます。
クラスター分析
得られたデータをいくつかのグループ(クラスター)に分類することを目的とする統計的手法を**「クラスター分析」と言います。クラスター分析には「階層型」と「非階層型」**の2つに分類できます。
階層型
階層型では、得られた標本において距離や相関係数によってケース間の**「類似度」**を求め、類似度の近いものから順にクラスターに結合していくという工程をとります。最初はケースの数だけクラスターがありますが、結合するたびにクラスターの数は1つずつ減少していきます。
階層型なクラスター間の距離計算方法には、「最短距離法」「最長距離法」「群平均法」「重心法」「メディアン法」「ウォード法」などが存在します。
非階層型
非階層型は、あらかじめいくつのクラスターに分けるかを決め、決めた数の塊(排他的部分集合)にサンプルを分割する方法です。階層クラスター分析と違い、サンプル数が大きいビッグデータを分析するときに適しています。クラスター内では分散が小さく、クラスター間は分散が大きくなるように分類します。非階層型クラスター分析の代表的手法の1つに**「k-means法」**があります。
「k-means法」 ▶︎ クラスターの平均(means)を用い、あらかじめ決められたクラスター数「k」個に分類する方法
① クラスターの「核」になるk個のサンプルをランダムに選ぶ
② 全てのサンプルとk個の「核」との距離を測る
③ 各サンプルを最も近い「核」と同じクラスターに分割する(全てのサンプルがk種類に分けられた)
④ k個のクラスターの重心点を求め、それを新たな核とする
⑤ 最終的に重心の位置が変化するまで、②〜④の作業を繰り返す
参考文献
- 【クロス集計の基本】単純集計との違い・やり方・注意点について | 24時間セルフ型アンケートツールFreeasy(フリージー)
- 5-3. クロス集計表 | 統計学の時間 | 統計WEB
- マーケティングがわかる事典 オンライン版 | 日本リサーチセンター
- ローレンツ曲線 | 統計用語集 | 統計WEB
- ジニ係数 | 統計用語集 | 統計WEB
- 31-1. フィッシャーの3原則 | 統計学の時間 | 統計WEB
- 32-5. さまざまな指数 | 統計学の時間 | 統計WEB - BellCurve
- クラスター分析 | 統計用語集 | 統計WEB
- クラスター分析 | 統計解析ソフト エクセル統計
- クラスター分析の手法③(非階層クラスター分析) | データ分析基礎知識