R言語で学ぶデータ分析 Web講座 第4回|簡易分析例その1|1変量の特徴(平均値・標準偏差など)

R言語で学ぶデータ分析 Web講座 第4回|簡易分析例その1|1変量の特徴(平均値・標準偏差など)

前回は、RStudioでデータ分析を進めていくための準備として、RStudioでプロジェクトを構築する方法、データの読み込みなどについてご説明いたしました。

データを読み込んだら、次にするのはデータ分析です。

多くのデータ分析系のプロジェクトでは、いきなり高度な分析に入るわけではありません。簡単な集計レベルの分析から始めることが多いでしょう。

今回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたします。

サンプルデータ

サンプルデータとして前回読み込んだデータセット「data01」の「revenue」(2列目のデータ)と「profit rate」(3列目のデータ)を使います。

まだデータセット「data01」を読み込んでいない方は、前回の記事を参考にRStudioにデータを読み込んで頂ければと思います。

データセット「data01」のダウンロードは、以下からお願いします。
↓↓↓
データダウンロード

(画像をクリックすると別タブで大きくなります)

特定のデータの抽出

先ずデータセット「data01」の列や行、セルのデータの抽出方法を説明します。

例として、以下の3つのデータへのアクセス方法について説明します。

  • 「data01」の5行目の1列目のセルのデータを抽出 → data01[5,1]
  • 「data01」の2行目のすべてのデータを抽出 → data01[2,]
  • 「data01」の3列目のすべてのデータを抽出 → data01[,3]

(画像をクリックすると別タブで大きくなります)

data01[行の指定,列の指定]となります。

試しに、データにアクセスできているか確認してみましょう。

(画像をクリックすると別タブで大きくなります)

 今回実施する内容

「data01」の「revenue」(2列目のデータ)と「profit rate」(3列目のデータ)に対し以下の5つの数字を出していきます。

  1. 平均値
  2. 最大値
  3. 最小値
  4. レンジ(最大値―最小値)
  5. 標準偏差

Rの命令文(スクリプト)の実行

上述の5つの数字は、以下の命令文で計算できます。

  1. 平均値 mean()
  2. 最大値 max()
  3. 最小値 min()
  4. レンジ(最大値-最小値) max()-min()
  5. 標準偏差 sd()

RStudioの左上のウィンドウ・ペインに次のような命令文を記入し、「Run」ボタをクリックすると、平均値や標準偏差などが計算されます。

mean(data01[,2])
max(data01[,2])
min(data01[,2])
max(data01[,2])-min(data01[,2])
sd(data01[,2])mean(data01[,3])
max(data01[,3])
min(data01[,3])
max(data01[,3])-min(data01[,3])
sd(data01[,3])

計算結果は、RStudioの左下にあるウィンドウ・ペインに表示されます。

(画像をクリックすると別タブで大きくなります)

今回のまとめ

今回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたしました。

1変量の特徴(平均値・標準偏差など)を把握したら、次にするのは変量間の関係の把握です。

変量間の把握で基礎となるのが、2変量の関係(散布図・相関係数など)の把握です。

次回は、RStudioで2変量の関係(散布図・相関係数など)を捉えるためのデータ分析の方法についてご説明いたします。

ビジネスデータサイエンス支援カンパニー
株式会社セールスアナリティクス