R言語で学ぶデータ分析 Web講座 第5回|簡易分析例その2|2変量の関係(散布図・相関係数など)

R言語で学ぶデータ分析 Web講座 第5回|簡易分析例その2|2変量の関係(散布図・相関係数など)

前回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたしました。

1変量の特徴(平均値・標準偏差など)を把握したら、次にするのは変量間の関係の把握です。

変量間の把握で基礎となるのが、2変量の関係(散布図・相関係数など)の把握です。

今回は、RStudioで2変量の関係(散布図・相関係数など)を捉えるためのデータ分析の方法についてご説明いたします。

サンプルデータ(前回、前々回と同じデータです)

サンプルデータとして前々回読み込んだデータセット「data01」を使います。まだデータセット「data01」を読み込んでいない方は、前々回の記事を参考にRStudioにデータを読み込んで頂ければと思います。

データセット「data01」のダウンロードは、以下からお願いします。
↓↓↓
データダウンロード

(画像をクリックすると別タブで大きくなります)

相関係数

相関係数は、2つのデータ間の直線的な関係性の強さを表す指標です。

例えば、夏に気温が高いほど炭酸飲料の売上が上がるという関係があれば、「『気温』と『炭酸飲料の売上』には相関がある」と言います。雨量が多い日ほど店舗の売上が下がれる関係があれば、「『雨量』と『店舗の売上』には相関がある」と言います。

このような2つのデータ間の関係の強さがどの程度あるのか? ということに対する指標の1つが相関係数です。

相関係数は、-1以上1以下の間の数値をとり、0に近いほど相関が弱く、-1もしくは1に近いほど相関が強いと言います。

  • 相関係数0:無相関
  • 相関係数1:正の相関(例:「気温」と「炭酸飲料の売上」)
  • 相関係数-1:負の相関(例:「雨量」と「店舗の売上」)

散布図を描くことで、相関係数の大きさを目で確かめることができます。

では、「data01」の「revenue」(2列目のデータ)と「profit rate」(3列目のデータ)で散布図を描き、さらに相関係数を計算していきます。

散布図を描く

散布図を描く命令文は「plot()」です。

RStudioの左上のウィンドウ・ペインに次のような命令文を記入し「Run」ボタンをクリックすると、RStudioの右下のウィンドウ・ペインの「Plots」に、散布図が描画されます。

plot(data01[,2],data01[,3])

(画像をクリックすると別タブで大きくなります)

このままでは分かりにくいので、散布図にタイトルなどを一緒に描画するとよいでしょう。以下のように「plot()」の命令文を書き換えます。

plot(
  data01[,2],
  data01[,3],
  main='売上(横軸)と利益率(縦軸)の散布図',
  xlab='売上',
  ylab='利益率'
  )

「main」は散布図のタイトル、「xlab」は横軸のラベル、「ylab」は縦軸のラベルです。

「Run」ボタンを押し実行(Run)すると、次にような散布図が描かれます。

(画像をクリックすると別タブで大きくなります)

描写した散布図を保存するときは、描写した図の上にある「Export」をクリックし保存形式を選択し保存します。

(画像をクリックすると別タブで大きくなります)

散布図を見る限り、売上(取引額)が大きいほど利益率が悪い傾向が見て取れます。

負の相関がありあそうです。実際に相関係数を計算してみましょう。

相関係数を計算してみましょう

相関係数を計算する命令文は「cor()」です。

RStudioの左上のウィンドウ・ペインに次にような命令文を記入し「Run」ボタンをクリックすると、RStudioの左下のパネルに相関係数が出力されます。

cor(data01[,2],data01[,3])

出力結果を見ると、相関係数は「-0.7637456」と負の相関になっています。

つまり、売上(取引額)の大きい顧客ほど利益率の悪い取引をしていることが分かります。

(画像をクリックすると別タブで大きくなります)

今回のまとめ

今回は、RStudioで2変量の関係(散布図・相関係数など)を捉えるためのデータ分析の方法についてご説明いたしました。

変量間の把握で基礎となるのが、2変量の関係(散布図・相関係数など)の把握です。

今回までは、RStudioの操作に慣れるためのものでした。

次回は、RStudioに限らない「Rの基本操作」についてご説明いたします。もちろん、RStudioは使いますが。

ビジネスデータサイエンス支援カンパニー
株式会社セールスアナリティクス