ノンコードでビジネスデータ分析を可能にするRパッケージRadiant
その4-3(RadiantでEDA – 記述統計量)

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその4-3(RadiantでEDA – 記述統計量)

データ分析や予測モデル構築などをやってみたいが……

  • RPythonだとの無料ツールはコーディングスキルがそれなりに必要になりハードルがある
  • 有料ツールのSASSPSSなどは使いやすそうだけど高額すぎる。

無料で使える使いやすさが有料級の分析ツールはないだろうか?

と言うことで、Radiantです。

Radiantは、ノンコードでビジネスデータ分析を可能にする無料で使える有料級Rパッケージです。

  • その1:Radiantのインストール・起動・終了
  • その2:Radiantのデータ読み込み
  • その3:Radiantでデータ抽出(絞り込み)
  • その4:RadiantでEDA(探索的データ分析)
    • その4-1 グラフ作成
    • その4-2 ピボット集計
    • その4-3 記述統計量 ⇒ 今回
  • その5:Radiantで予測モデル構築

前回は、その4-2の「ピボット集計」について簡単に説明しました。

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその4-2(RadiantでEDA – ピボット集計)

今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-3 記述統計量」について簡単に説明します。

取り急ぎRadiantを起動

以下、コードです。

# 必要パッケージのロード
library(radiant)

# radiantの起動
radiant()

 

サンプルデータ

サンプルデータは、Radiantのサンプルデータである「diamonds」をそのまま使います。

  • price: price in US dollars
  • carat: weight of the diamond
  • clarity: measurement of how clear the diamond
  • cut: quality of the cut
  • color: diamond color
  • depth: total depth percentage
  • table: width of top of diamond relative to widest point
  • x: length in mm
  • y: width in mm
  • z: depth in mm

 

データ探索画面(Explore)

データセットを読み込み、データ理解のために実施することと言えば……

  • 読み込んだデータそのものを眺める
  • データをグラフ化し視覚的に理解する
  • データを色々な軸で集計し特徴を掴む

……などがあげられることでしょう。前々回と前前々回に、読み込んだデータそのものを眺めるお話しと、データのグラフ化のお話しをしました。

前回は、Pivot集計のお話しでした。今回も集計ですが、Pivot集計ではなく、色々な軸で記述統計量(平均値や最小値、最大値、標準偏差など)を探索し特徴を掴むための集計です。

Radiantのメニューにある「Explore」ボタンをクリックすると、データ探索用の画面が現れ、色々な軸でデータを集計することができます。

 

データ探索用の画面で設定する主な内容

データ探索用の画面で主に設定する内容です。

  • Numeric variable:集計対象の設定(数値変数)
  • Group by:層別(集計軸)の設定(カテゴリカル変数)
  • Apply function:集計方法の設定(カウント、平均、など)

 

簡単な集計(記述統計量の算出)例

以下、簡単な集計(記述統計量の算出)例です。

  • Numeric variable:price、carat
  • Group by:clarity
  • Apply function:n_obs、mean、min、max、sd

 

次回

今回は、その4の「RadiantでEDA(探索的データ分析)」の「その4-3 記述統計量について簡単に説明しました。

  • その1:Radiantのインストール・起動・終了
  • その2:Radiantのデータ読み込み
  • その3:Radiantでデータ抽出(絞り込み)
  • その4:RadiantでEDA(探索的データ分析)
    • その4-1 グラフ作成
    • その4-2 ピボット集計
    • その4-3 記述統計量
  • その5:Radiantで予測モデル構築
    • その5-1 学習データとテストデータへの分割 ⇒ 次回
    • その5-2 回帰問題(線形回帰・回帰木・XGBoost)
    • その5-3 分類問題(ロジスティック回帰・ランダムフォレスト・ニューラルネット)

次回は、その5の「Radiantで予測モデル構築」の「その5-1 学習データとテストデータへの分割について説明します。

ノンコードでビジネスデータ分析を可能にするRパッケージRadiantその5-1(予測モデル構築 – 学習データ・テストデータ分割)