特徴量エンジニアリング(feature engineering)は、私がデータ分析を始めた20数年前から非常に重要なものでした。 特徴量(feature)とは、数理モデルの説明変数Xを指します。 ドメイン(データ活用の現...
Rにはディープラーニング関連のパッケージは色々あります。R独自のものから、そうでないものもあります。 ディープライニングで有名なKeras(TensorFlow)はRStudio(R)上で使うことができます。 前回は分類...
Rにはディープラーニング関連のパッケージが色々あります。 例えば…… neuralnet nnet RSNNS deepnet darch rnn FCNN4R rcppDL deepr MXNetR h2o tenso...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
データアナリティクス(データ分析)には、幾つか種類があります。 以下の5つです。 Descriptive Analytics:記述的分析(過去から現在、どうだった) Diagnostic Analytics:診断的分析(...
PythonでEDA(探索的データ分析)を実施するとき、PandasのQuery(クエリ―)を使う方も多いことでしょう。 ここで紹介するQuery(クエリ―)は、Pandasの関数の1つで、データフレームに対し条件抽出す...
TPOTでは、あらかじめパイプラインに使う変換器やアルゴリズム、探索するパラメータの範囲が決まっています。 しかし、あまり探索に時間をかけたくないときや単純な変換器・アルゴリズムを使いたいときがあると思います。 逆に時間...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
データセットを手にしたら、最初に実施するのがEDA(探索的データ分析)です。 端的に言うと、データと仲良くなるための会話です。 EDA(探索的データ分析)はほぼ半分は似たような分析を実施します。EDA(探索的データ分析)...
ビジネスの現場で売上などの数値を予測することは多いでしょう。 例えば、予測モデルを構築し予測したり、例年踏襲型で数値を予測したりします。 例年踏襲型とは、昨年と同額もしくは昨対比10%UPみたいな感じの予測というものです...
BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、Web上のデータを取得する方法と簡単なデータ加工について説明しました。 Web上にあるデータを取り込んだら、加...
RだろうがPythonだろうが、データフレームを再構築することは少なくないでしょう。 例えば…… 縦持ち(Long)のデータフレームを、横持ち(Wide)のデータフレームに再構築 横持ち(Wide)のデータフレームを、縦...
データを集めたら、次にデータを分析しなければなりません。 集めたデータと分析の関係は、食材と料理の関係に似ています。良い食材であっても料理人の腕に問題があると台無しになることがあります。不十分な食材でも調理しだいで美味し...
Pythonでデータ分析をするとき、Pandasを使わない人はいないぐらいです。 Pandasの幾つかの機能を高速化するライブラリーがあります。 計算処理を並列化するPandaralellです。 ただ、すべての処理が高速...
データ分析では、よく数理統計学の手法が使われます。 その中で、比較的高頻度で登場するのが「相関分析」です。 2つの変量の間の関係性を見るものです。 今回は、「『相関』は曲がったことが大っ嫌い」というお話しをします。 相関...
BI(ビジネスインテリジェンス)ツールで先ずすべきは、外部にあるデータの読み込み(データ取得)です。 前回は、複数のCSVデータを取得し結合するやり方について説明しました。 最近は、ExcelやCSVファイル、データベー...