ノンコードでビジネスデータ分析を可能にするRパッケージRadiant
その4-1(RadiantでEDA – グラフ作成)

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその4-1(RadiantでEDA – グラフ作成)

データ分析や予測モデル構築などをやってみたいが……

  • RPythonだとの無料ツールはコーディングスキルがそれなりに必要になりハードルがある
  • 有料ツールのSASSPSSなどは使いやすそうだけど高額すぎる。

無料で使える使いやすさが有料級の分析ツールはないだろうか?

と言うことで、Radiantです。

Radiantは、ノンコードでビジネスデータ分析を可能にする無料で使える有料級Rパッケージです。

  • その1:Radiantのインストール・起動・終了
  • その2:Radiantのデータ読み込み
  • その3:Radiantでデータ抽出(絞り込み)
  • その4:RadiantでEDA(探索的データ分析)
    • その4-1 グラフ作成 ⇒ 今回
    • その4-2 ピボット集計
    • その4-3 記述統計量
  • その5:Radiantで予測モデル構築

前回は、その3の「Radiantでデータ抽出(絞り込み)」について簡単に説明しました。

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその3(Radiantでデータ抽出(絞り込み))

今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-1 グラフ作成」について簡単に説明します。

今回利用するデータセット

2種類のサンプルデータを使います。

  • Radiantのサンプルデータである「diamonds」 ※テーブルデータ
  • Rに最初から備わっているサンプルデータである「longley」 ※時系列データ

 

サンプルデータ「diamonds

サンプルデータ「diamonds」は、最初からRadiantに備わっているため、特に準備は必要ありません。

以下は、データ項目です。

  • price: price in US dollars
  • carat: weight of the diamond
  • clarity: measurement of how clear the diamond
  • cut: quality of the cut
  • color: diamond color
  • depth: total depth percentage
  • table: width of top of diamond relative to widest point
  • x: length in mm
  • y: width in mm
  • z: depth in mm

 

サンプルデータ「longley

サンプルデータ「longley」は、米国経済の時系列データです。

最初からRに備わっていますが、事前にRワークスペースにロードしておく必要があります。

以下、コードです。

data(longley)

 

以下は、データ項目です。

  • GNP.deflator:GNP implicit price deflator (1954=100)
  • GNP: Gross National Product
  • Unemployed: number of unemployed
  • Armed.Forces: number of people in the armed forces
  • Population:‘noninstitutionalized’ population ≥ 14 years of age
  • Year: the year (time)
  • Employed: number of people employed

 

取り急ぎRadiantを起動

以下、コードです。

# 必要パッケージのロード
library(radiant)

# radiantの起動
radiant()

 

サンプルデータの読み込み

サンプルデータ「longley」は、Rワークスペースにロードしただけです。Radiant上では使えません。Radiant上で使うには、Rワークスペースからデータを読み込む必要があります。非常に簡単です。

メニューバーにある「Data」をクリックし、「Manage」をクリックすると、データ読み込み保存ができます。

 

Load data of type」で、「from global workspace」を選択します。そうすると、Rのワークスペース上にあるオブジェクトの中で読み込めるデータセットが「Data.frames in Global Env」に表示されます。今回は、「longley」を選択します。最後に「Load」ボタンをクリックし読み込みます。Radiant上で扱うデータセットを切り替えるときには、左上の「Datasets」で切り替えます。

 

グラフ作成(Visualize)

データセットを読み込み眺めただけでは、どのようなデータなのか理解するのは難しいです。グラフで表現すると、データ理解が進みます。

Radiantのメニューにある「Visualize」ボタンをクリックすると、グラフ作成用の画面が現れ、様々なグラフを描くことができます。

 

例えば、以下のようなグラフを描くことができます。

  • Distribution:ヒストグラム
  • Density:密度推定
  • Scatter:散布図
  • Surface:ヒートマップ
  • Line:折れ線グラフ
  • Bar:棒グラフ
  • Box-plot:ボックスプロット

その中のいくつかを作り方を、以下の順番で簡単に説明します

  • サンプルデータ「diamonds」 ※テーブルデータ
    • Bar:棒グラフ
    • Distribution:ヒストグラム
    • Density:密度推定
    • Box-plot:ボックスプロット
    • Scatter:散布図
  • サンプルデータ「longley」 ※時系列データ
    • Line:折れ線グラフ

 

棒グラフ

clarity別にprice平均値(mean)棒グラフで表現してみます。左側の「Plot-type」で「Box」を選択し作ります。

 

ヒストグラム

clarity別にprice分布を、ヒストグラムで表現してみます。左側の「Plot-type」で「Distribution」を選択し作ります。

 

密度推定

clarity別にprice分布を、ヒストグラムで表現してみます。左側の「Plot-type」で「Density」を選択し作ります。

 

箱ひげ図

clarity別にprice分布を、ボックスプロットで表現してみます。左側の「Plot-type」で「Box-plot」を選択し作ります。

 

散布図

clarity別にpricecaratの関係性を散布図および回帰線で表現してみます。左側の「Plot-type」で「Scatter」を選択し作ります。

 

折れ線グラフ

今まではサンプルデータ「diamonds」使ってきました。折れ線グラフは時系列データである「longley」を使います。

左上の「Datasets」で、「longley」に切り替えます。

 

GDP、Population、Employed時系列推移を表現するために、折れ線グラフで表現してみます。左側の「Plot-type」で「Line」を選択し棒グラフを作ります。「Y-variable」で折れ線グラフで表現する対象の時系列データ(例:GDP、Population、Employed)を指定し、「X-variable」で時間軸(例:Year)を指定します。

 

次回

今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-1 グラフ作成について簡単に説明しました。

  • その1:Radiantのインストール・起動・終了
  • その2:Radiantのデータ読み込み
  • その3:Radiantでデータ抽出(絞り込み)
  • その4:RadiantでEDA(探索的データ分析)
    • その4-1 グラフ作成
    • その4-2 ピボット集計 ⇒ 次回
    • その4-3 記述統計量
  • その5:Radiantで予測モデル構築

次回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-2 ピボット集計について説明します。

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその4-2(RadiantでEDA – ピボット集計)