はじめに
スパースモデリングは、解のスパース性を仮定して、少ないデータからでもデータの関係をモデル化できるようにする手法です。大量のデータがあることを前提にデータの関係をモデル化するディープラーニングとは対照的なものです。
理解を深めるため、scikit-learnで「ほとんどの係数がゼロの多項式関数」と解のスパース性を仮定した多項式回帰の問題を解いてみます。
この記事でやること
- スパースモデリングの概要説明
- 多項式回帰を、
sklearn.linear_model
のRegressors with variable selectionを使って解く- Google Colaboratoryでこの記事に用いたソースコードの全文を実行できます
- (ただし、題材となる多項式関数はランダムに決定されるため、この記事と完全に同一とはなりません)
この記事でやらないこと
- 詳細な数学的解説
- 最新アルゴリズム(各種座標降下法など)の紹介
- アルゴリズムの選択方針、パラメーターの調整方針
- スパースコーディング
スパースモデリングにおけるスパース性の仮定
- 観測されたデータを「結果」とする
- n個の「要因」が「結果」をもたらした、とモデル化した
ことを表したものです。
上の図の右側は、
- 要因はn個も考えられるけれども、そのうち実際に結果に関わるものは極少数で、大部分は関係がない
と仮定したことを表したものです。これが「スパース性を仮定する」と良い、スパース性を前提としたモデル化を「スパースモデリング」と言います。
多項式回帰を例題にする
具体的に考えるために、先程の図を多項式回帰の問題と考えることにします。
通常、多項式回帰は最小二乗法を使って解くことを考えます。しかし、モデルの説明変数$w_i$の数に対してデータの数が少ないときは過学習が起こります。
例として、真の関数を$$y = -2.59x^{4} + 0.776x^{29}$$とし、そのうちノイズの入った11点しかデータが取れなかった場合を考えます。
ここで、$$y = \sum_{i=0}^{39} w_i x^i$$とモデル化し、scikit-learnのLinearRegression
を使って、最小二乗法による多項式回帰を実行してみます。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
確かに過学習が起きているらしいことが確認できました。
今回は、説明変数40個のモデルに対してデータが11個しか与えられていませんでした。この状況は、一般的なディープラーニングのアプローチで期待されている「モデルの説明変数に対して十分な量のデータがある状況」とは真逆のものです。
scikit-learnでスパースモデリングを試す
ここで、「全40変数の内ほとんどの変数はゼロだが、どこが非ゼロかはわからない」というスパース性の仮定を置きます。この仮定を使うには「非ゼロの変数が少ないほど良い」としたアルゴリズムを使えば良いことになります。
以下に、scikit-learnで実装されているアルゴリズムを使った例を示します。
(各アルゴリズム名の見出しは、scikit-learnのドキュメントへのリンクになっています)
Lasso
Lassoは、最小二乗法の目的である「残差の二乗和の最小化」に、L1正則化項を加え、これを最小化できる係数を決定するものです。
from sklearn.linear_model import Lasso
model = Lasso(alpha=0.001)
Elastic Net
Elastic Netは、(Lasso回帰で使われる)L1正則化項に加え、(Ridge回帰で使われる)L2正則化項も加えたものです。
from sklearn.linear_model import ElasticNet
model = ElasticNet(alpha=0.001)
Orthogonal Matching Pursuit model (OMP)
OMPは、先程までの「最小二乗法+正則化項」とは異なり、「最良の係数を1つずつ見付け、順に付け加えていく」というイメージで係数を決定します。
from sklearn.linear_model import OrthogonalMatchingPursuit
model = OrthogonalMatchingPursuit(n_nonzero_coefs=2)
LARS
LARSは、「特徴量の値と暫定での誤差との相関が最も大きい特徴量を1つずつ加えていく」というものです。
from sklearn.linear_model import Lars
model = Lars(n_nonzero_coefs=2)
Lasso-Lars
Larsを使ったLasso回帰です。詳細は分かりませんでした。
from sklearn.linear_model import LassoLars
model = LassoLars(alpha=0.001)
各係数の値
どのアルゴリズムも過学習を抑えられていることが分かりました。
では、最小二乗法で係数を求めたときの実際の各係数を見てみます。
全係数に値が入っています。
続いて、Lasso-Larsで係数を求めたときの実際の各係数です。
少ない係数で多項式が表現できています。
まとめ
スパースモデリングの概要を説明し、簡単な多項式回帰の問題でスパースモデリングを試してみました。
「スパースモデリングは少ないデータからでも良質な学習ができる」とだけ聞くと、ディープラーニングより優れた方法という印象を受けるかもしれませんが、スパースモデリングが有効に作用するのはスパース性の仮定が前提にある場合だけです。ディープラーニングとスパースモデリングは、それぞれが前提としている状況が異なるので優劣の関係にはありません。
問題設定がスパース性とマッチしていれば、スパースモデリングはディープラーニングより好ましい結果を与えてくれるでしょう。
Reference
-
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
- 全体の構成を考えるのに役に立ちました。
-
Python ではじめるスパースモデリング – HACARUS INC.
- Pythonコードの参考になりました。
-
LARS(Least Angle Regression)アルゴリズムまとめ(Python, sklearn) | 創造日記
- LARSアルゴリズムを理解するのに参考になりました。