Why do tree-based models still outperform deep learning on typical tabular data ?

なぜ、テーブルデータでツリーベースのモデルが
ディープラーニング(深層学習)モデルを凌駕するのか?

Why do tree-based models still outperform deep learning on typical tabular data ?なぜ、テーブルデータでツリーベースのモデルがディープラーニング(深層学習)モデルを凌駕するのか?

以下の論文を勝手に超々意訳解説します。

ディープラーニング(深層学習)は、画像、テキスト、音声データ処理を大幅に進化させました。しかし、テーブルデータに対してあまり有効性ではありません。

一方、XGBoostのようなツリーベースのモデルは、テーブルデータに対し有効性が高いです。

なぜでしょうか?

超々意訳解説

本研究では、48の様々なデータセットにおいて、ツリーベースモデルをディープラーニングモデルと比較し、モデルのフィッティングとハイパーパラメータの最適化の両方を評価しています。

  • ツリーベースモデル:RandomForest、GradientBoostingTrees、XGBoost
  • ディープラーニングモデル:古典的MLP、Resnet、FT Transformer

 

では、結論です。

特に中規模のデータセット(~10Kサンプル)では、高速性を考慮せずとも、ツリーベースのモデルがディープラーニングを上回ることが示されました。

 

では、ディープラーニングのどこに課題があるのか?

例えば、以下の3つです。

  • Finding 1: ニューラルネットワークの滑らかな解へのバイアス
  • Finding 2: 情報量の少ない特徴量への感度
  • Finding 3: データは回転によって不変ではない

 

以上の課題を乗り越える、テーブルデータに特化したニューラルネットワークアーキテクチャの開発が求められます。

 

詳細は、以下の論文を読んでください。

 

補足1:各Findingの簡易解説

 Finding 1:ニューラルネットワークの滑らかな解へのバイアス

ニューラルネットワーク、特にMLPが、不規則な目的関数に対してどのように振る舞うか?

トレーニングセットの出力をガウシアンカーネルスムーザーで平滑化することによって、モデルが目的関数の不規則なパターンをどの程度学習できるかを調査しました。

平滑化したデータセットにおいて、ツリーベースモデル(例えばGBTやランダムフォレスト)の精度は顕著に低下しましたが、ニューラルネットワークの性能はそれほど影響を受けませんでした。

この結果は、ニューラルネットワーク、特にMLPが滑らかな解にバイアスを持っていることを示唆しています。つまり、これらのモデルは不規則なパターンや複雑な関数を学習する際に苦労する可能性があることを示唆しています。

 

 Finding 2:情報量の少ない特徴量への感度

情報量の少ない特徴量がデータセットに存在する場合のMLPの影響は?

MLPは無関係な特徴に対してロバストではありません。このような特徴量が存在すると、それらが除去された場合に比べてMLPの性能が低下します。

一方、ツリーベースモデルなどはロバストです。

MLPは無関係または冗長な特徴量が多いデータセットには最適ではないかもしれません。そのような特徴量によって性能がより大きく悪影響を受けるためです。

 

 Finding 3:データは回転によって不変ではない

テーブルデータにおけるMLP回転不変性の影響は?

MLPは回転不変であり、特徴量空間の回転によって性能が影響されません。これはツリーベースモデルやFTトランスフォーマーとは対照的で、これらはデータの向きに敏感です。

この回転不変性により、特徴量の向きが重要なデータセットではMLPが苦戦する可能性があります。特に無関係な特徴量があると困難さが増します。

特徴量の特定の向きに重要な情報が含まれる場合、MLPのこの特性は不利になる可能性があります。

そして多くの場合、テーブルデータは向きに重要な情報が含まれています。

 

補足2:MLP回転不変性の簡易解説

 回転不変性の意味と影響

MLPが回転不変性を持つとは、データセット内の特徴がどのように回転しても、MLPは同じように学習し、同じ結果を出力するということです。

この回転不変性は、特に無関係な特徴(情報をほとんど提供しない特徴)が含まれる場合に、MLPの性能に影響を与える可能性があります。

MLPは無関係な特徴量を効果的に無視することが難しく、これがパフォーマンスの低下につながることがあります。実際、無関係な特徴を含むデータセットに対するMLPのパフォーマンスは、これらの特徴量を除去することで向上します。

 

 回転不変性のモデル選択への影響

この性質は、特定のタイプのデータセット(例えば、特徴の向きが重要なデータセット)において、MLPが最適な選択であるかどうかを決定する際の重要な要因となります。

特徴の回転に敏感でないという特性は、一部のアプリケーションでは有益ですが、特徴の相互関係や方向性が重要な場合には不利に働く可能性があります。

テーブルデータにとって特徴量の向きは重要です。特徴量の向きは、データの分析や機械学習モデルの構築に影響を与えるためです。

 

補足3:登場するモデルの簡易解説

 ツリーベースモデル

RandomForest (ランダムフォレスト) GradientBoostingTrees (GBTs) XGBoost
定義 複数の決定木からなるアンサンブル学習方法。 段階的に木を構築し、エラーを修正するアンサンブル技術。 速度と性能に特化した勾配ブースト決定木。
主な特徴 過学習を低減し、分類と回帰の両方に対応。 エラーの削減に焦点を当て、カスタマイズ可能。 効率的で、正則化を含み、欠損データを扱う。
用途 分類および回帰タスクに広く使用される。 精度が重要な分類と回帰タスクに効果的。 機械学習コンペティションや業界アプリケーションに人気。
特記事項 決定木の結果を統合して全体の結果を向上させる。 連続する各木が前の木の間違いを修正する。 大規模かつ複雑なデータセットに対する計算効率が高い。

 ディープラーニングモデル

クラシカルMLP (マルチレイヤーパーセプトロン) Resnet (レジデュアルネットワーク) FT Transformer
定義 フィードフォワード型の人工ニューラルネットワーク。複数の層を持つ。 深いネットワーク用のCNN。スキップ接続を特徴とする。 トランスフォーマーアーキテクチャと特徴別変換を組み合わせたモデル。
主な機能 非線形に活性化されるノードを含む。バックプロパゲーションを利用して訓練。 深いネットワークでの勾配消失問題を軽減するスキップ接続。 カテゴリカルおよび数値特徴を処理するためのコンポーネントを含む。
用途 分類、回帰、複雑なネットワークの一部として使用。 画像認識や処理に使用。深層学習の基礎アーキテクチャ。 テーブルデータの処理、複雑なパターンや関係の解析に有用。
特記事項 基本的かつ汎用的なニューラルネットワークアーキテクチャ。 ImageNetコンペティションでの優勝歴あり。 自然言語処理用トランスフォーマーをテーブルデータに適応させたモデル。