R言語で学ぶデータ分析 Web講座 第3回|RStudio 超基本

R言語で学ぶデータ分析 Web講座 第3回|RStudio 超基本

前回は、Rを使いやすくするRStudioのインストール方法とパッケージのインストール方法も併せてご説明いたしました。

では、実際にどのようにRStudioを使いデータ分析を進めていくのでしょうか。

カチッと決められたルールのようなものはありませんが、私の経験上、RStudioでプロジェクトを構築しその中で分析を進めていきます。そして、プロジェクトを構築したら先ずすべきはデータの読み込みです。

今回は、RStudioでデータ分析を進めていくための準備として、RStudioでプロジェクトを構築する方法、データの読み込みなどについてご説明いたします。

プロジェクト構築

RStudioでは、「プロジェクト」という単位でデータ分析を実施します。

ちなみに、RはRStudioを通して操作するためRを直接操作して分析することはありません。

先ずは、RStudioの「プロジェクト」を構築するところから始めます。

RStudioを起動し、以下の図のように「File」の「New Project」をクリックします。

(画像をクリックすると別タブで大きくなります)

「New Project」をクリックすると、以下の図のような画面が表示されます。

新しいプロジェクトを構築するときは、基本「New Directory」を選択します。

(画像をクリックすると別タブで大きくなります)

「New Directory」をクリックすると、プロジェクトのタイプを選択する画面が表示されます。

「Empty Project」を選択します。

(画像をクリックすると別タブで大きくなります)

「Empty Project」をクリックすると、プロジェクト名を入力する「ダイアログボックス」が表示されます。

(画像をクリックすると別タブで大きくなります)

「Directory name」の欄に、プロジェクト名を入力し、右下の「Create Project」ボタンをクリックして完了です。

デフォルトでは、プロジェクトを構築する場所は「~/R」となっています。変更したい場合は、「Create project as subdirectory of」の欄を書き換えてください。

今回の例では、「Directory name」の欄に「test」(プロジェクト名)、「Create project as subdirectory of」の欄に「~/R」(つまり書き換えずそのまま)でプロジェクトを構築しています。

プロジェクトの構築が完成すると、「~/R」に「test」フォルダが作成され、以下の図のようになります。

(画像をクリックすると別タブで大きくなります)

今回の分析は、このプロジェクト上で進めていきます。

ちなみに、RStudioのプロジェクトを開くときは、「File」の「Open Project」をクリックし、プロジェクトを選択し開きます。

(画像をクリックすると別タブで大きくなります)

RStudioによるデータの読み込み

分析をするにはデータを読み込まなければなりません。簡単にExcelファイルの読み込み方を説明します。

RStudioのプロジェクト「test」のフォルダからExcelファイル「revenue_profit.xlsx」を読み込んでみます。

プロジェクト「test」のフォルダにExcelファイル「revenue_profit.xlsx」がある想定で話しを進めます。

データのダウンロードは、以下からお願いします。
↓↓↓
データダウンロード

(画像をクリックすると別タブで大きくなります)

RStudioを起動しプロジェクト「test」を開きます。

前回、プロジェクト「test」のまま終了した場合には、RStudioを起動するとプロジェクト「test」の状態で起動します。

Excelファイルのデータを読み込みには、RStudioの右上にある「Environment」の「Import Dataset」をクリックします。

いくつかのファイル形式を選択できるようになっているので、その中から「From Excel」をクリックし選択します。

Excelファイル以外では、csvファイルやSPSSファイル、SASファイル、Stataファイルなどが選択できます。

(画像をクリックすると別タブで大きくなります)

「From Excel」をクリックし選択すると、読み込むデータを指定する「ダイアログボックス」が表示されます。

「ダイアログボックス」の右上にある「Browse」ボタンをクリックし読み込むExcelファイルを選択します。

次に、「ダイアログボックス」の左下にある「Sheet」で読み込むデータのExcelシート名を指定し、「Name」でその読み込んだデータに名前を付けます。「ダイアログボックス」の真ん中に「読み込むデータ」の一部が表示されます。

例では、読み込むExcelファイルは「revenue_profit.xlsx」、読み込むデータのExcelシート名は「revenue-and-profit-rate」、読み込んだデータの名前は「data01」です。

読み込んだデータは、RStudio内では、「data01」という名前で使用します。

「ダイアログボックス」の右下にある「Import」ボタンをクリックすると、データを読み込みます。

(画像をクリックすると別タブで大きくなります)

読み込みが終了すると、以下の図のように、読み込んだデータである「data01」が「Enviroment」に表示されます。

この表示された「data01」をクリックすると、左上に「data01」のデータの内容の一部が表示されます。

(画像をクリックすると別タブで大きくなります)

これでExcelファイルからのデータの読み込みは完了です。

ちなみに、RStudioの左上のパネルにはRで実行する「命令文」を記入し、そのパネルの上にある「Run」ボタンを押すことで命令文が実行(Run)されます。RStudioの左下のパネルに実行結果が表示されます。

例えば、「data01」と記入し「Run」ボタンをクリックすると、「data01」の内容がそのままRStudioの左下のパネルに表示されます。

(画像をクリックすると別タブで大きくなります)

今回のまとめ

今回は、RStudioでデータ分析を進めていくための準備として、RStudioでプロジェクトを構築する方法、データの読み込みなどについてご説明いたしました。

データを読み込んだら、次にするのはデータ分析です。

しかし、データ分析と言っても、色々なデータ分析のやり方があります。何をすべきか迷うところです。

そして、多くのデータ分析系のプロジェクトでは、いきなり高度な分析に入るわけではありません。簡単な集計レベルの分析から始めることが多いでしょう。

次回は、RStudioで1変量の特徴(平均値・標準偏差など)を捉えるためのデータ分析の方法についてご説明いたします。

ビジネスデータサイエンス支援カンパニー
株式会社セールスアナリティクス