※今回の内容はYouTube動画でもご紹介しています。
■はじめに
今回は統計ソフト「JMP(ジャンプ)」で散布図を作成します。散布図は2つの連続変数の関係を判断したい時や、それらの相関の有無を検討する際に便利です。さらにJMPでは、データ、回帰直線、確率楕円等が散布図と連動するため、データ探索をより深く進めることができます。
では始めましょう。JMPをお持ちでない方は、30日間全機能を試せるトライアル版をご利用ください。
■データを開く
まず、今回使用するデータを開きます。画面上の「ヘルプ」から「サンプルデータフォルダ」と進み、サンプルデータの中からCompaniesを選択すると下のようなデータテーブルが表示されます。
このデータはさまざまなタイプの企業の売上や利益、従業員数などを表しています。これをもとに散布図を作成します。
■JMPで作る散布図
それでは、さっそく描いてみましょう。画面上の「分析」から「二変量の関係」と進みます。
JMPは、選択した尺度の組み合わせに応じて適切なグラフを出力できるのが強みです。
ここで連続尺度(青三角アイコン)の「売上($M)」を選択して「Y, 目的変数」に、「従業員数」を選択して「X, 説明変数」に入れて「OK」を押します。
散布図が表示されました。
図の右上に、点がぽつんと1つありますね。この1社だけ従業員数が多く、売上も抜きん出ていることがわかりますが、この1つの点のせいで、図が読み取りづらくなっています。 そこで、この点を削除し、図を作成し直してみましょう。
まず、該当する点を選択し、「行を非表示かつ除外にする」をクリックします。これで該当するデータ点が表示されなくなりました。
次に左上の赤い三角ボタンをクリックし、メニューから「やり直し」へ進み、「分析のやり直し」を選択します。これでだいぶ見やすくなったのではないでしょうか。
■散布図に回帰直線を追加する
従業員数から売上を予測するには、回帰モデルをあてはめます。左上の赤い三角ボタンをクリックし「直線のあてはめ」を選択します。すると、散布図に回帰直線が追加され、新しいレポートがレポートウィンドウに追加されます。
このレポートでは、売上の予測式やR2乗値、P値などが示されています。ちなみに、ここではR2乗値が0.618となっていますが、これはこのモデルが売上の変動のおよそ62%を説明していることを意味しています。
■散布図行列に確率楕円を追加する
では次に、散布図行列を作成し、そこに確率楕円を追加してみましょう。まず、データテーブルに戻り、「分析」から「多変量」、「多変量の相関」と進みます。
そして、左のリストの「売上」から「従業員一人あたりの利益」までをすべて選択し、「Y, 列」に入れ「OK」をクリックします。すると、「多変量」レポートが表示されます。
このレポートには、デフォルトで上の「相関」レポートと下の「散布図行列」が含まれています。「相関」レポートの濃い数字(上図赤枠部分等)は、相関が高いことを示しています。たとえば、「売上」の列を見ると、売上と従業員数は相関が高いことが分かります。
また、下の散布図行列上に確率楕円を表示させると、変数間の関係をさらに深く理解できます。「散布図行列」の左の赤三角から「確率楕円」をクリックします。すると、確率楕円が表示されました。
変数同士に相関がない場合は、楕円が対角線上に伸びず完全な円に近くなります。一方、相関がある場合は、楕円が対角線上に伸び、細長くなります。今回は、売上と従業員数の間に高い相関を見てとれそうですね。
ところで、散布図行列で確率楕円を表示させるメリットはデータ探索にあります。たとえば、ある散布図において外れ値を選択すると、他の散布図でもハイライトされるため、そのデータが持つ意味を深く掘り下げられます。
また、左の赤三角から「直線のあてはめ」をクリックすれば回帰直線を表示できますし、同じく赤い三角ボタンから「ヒストグラムの表示」、「X軸上」と進み、ヒストグラムを表示させることもできます。
その上で、インタラクティブにデータテーブルや散布図行列を検討することもできます。
■まとめ
今回は以上になります。JMPの散布図はデータの解釈に非常に優れています。ぜひ試してみてください。