機械学習・データマイニング手法は多数ありますが、SAS Viya(サス・ヴァイヤ)が対応しているモデリング、アルゴリズムについて挙げてみました。
回帰
回帰とはYが連続値の時にデータに Y = f(X)
というモデルを当てはめることです。つまりXとYの関係性(モデル)を見いだすことです。Xは独立変数、Yは従属変数と呼びます。
線形回帰モデル
データの傾向を一つの直線によって導き出す分析法です。大量のデータがあった時に、直線(比例、反比例)的な傾向が見いだせることで、予測が立てやすくなります。
ロジスティクス回帰モデル
線形回帰モデルの一種です。企業の過去のデータをもとに信用リスクを推定するのに使われたり、ダイレクトマーケティングの反応を推定するのに使われたりします(via ロジスティック回帰 - Wikipedia)
ノンパラメトリック回帰
統計のパラメータについて一切の前提を設けない回帰です。母集団の分布など前提を必要としないため、幅広く適用できます。事前に詳しいことが分かっていない場合などに用いられます(via ノンパラメトリック手法 - Wikipedia)。
一般化線形/加法モデル
Yがバランスの取れた正規分布ではない(湾曲している)際には一般化線形モデルを用います。加法モデルはより複雑な現状を回帰するものになります。
非線形回帰モデル
線形回帰モデルではない、つまり直線で示されない回帰モデルということになります。多くは式で示されたり、曲線で示されます。
分位点回帰モデル
指定したパーセンテージにおける値を予測するモデルです。分位点の変化を見ることで、関係性が見いだせる場合があります。
部分最小二乗法
偏最小二乗回帰または部分最小二乗回帰とも呼ばれます。相関関係のある複数の予測子変数が含まれているデータに対して使用されます。観測された応答値を考慮しつつ、信頼できる予測力をもつモデルを作成します。
木
ディスジョン・ツリー
取り得る選択行動と、不確実性の発生確率の分岐が多岐に渡る際、すべての選択行動と発生確率を階層的に描きます。そして、それらの結論と期待値を算出し、最も大きな効用が得られる経路を選択します。
ランダムフォレスト
ランダムなサンプリングによって、サブサンプルを形成します。そしてトレーニングデータの説明変数の内、m個をランダムに選択します。トレーニングデータを最もよく分類するものと、その閾値を用いて相関の低い決定木群をを作成します。
勾配ブースティング
ブースティングはアンサンブル学習の一つです。アンサンブル学習とは、弱い学習器を組み合わせて複雑な問題に対応するものです。ブースティングはこの学習器の結果を次の学習器に用いるものです。前のステップで間違った分類になったものは重み付けを増して、正しく判断されるようにします。この損失関数を最小化を勾配降下法を用いて実現するのが勾配ブースティングになります。
モデル
ニューラルネットワーク
脳に見られる特性をシミュレーションによって表現したモデルです。教師あり学習と教師なし学習の二つがあります。
ベイジアンネットワーク
因果的な特徴を有向グラフ(矢印を用いたリンク)によるネットワーク(重み付けグラフ)として表し、その上で確率推論を行うことで、複雑でかつ不確実な事象の起こりやすさやその可能性を予測することができます。これまで蓄積された情報をもとに、起こりうる確率をそれぞれの場合について求め、それらを起こる経路に従って計算することで、複雑な経路を伴った因果関係の発生確率を定量的に表すことが可能となります。
K-最近傍探索
機械学習アルゴリズムの中でも単純なものです。あるオブジェクトの分類は、近傍のオブジェクトの投票によって決定するという仕組みです。オブジェクト群が奇数になっていれば、いずれかに分類されます。
サポートベクターマシン
教師あり学習を用いるパターン認識モデルの一つです。認識性能が優れた学習モデルの一つといわれています。未学習データに対する高い識別能力があります(via サポートベクターマシン - Wikipedia)。
ファクタリゼーション・マシン
汎用的な分類アルゴリズムで、複数のコンテキストを用いた分類が実現できます。Netflixから出ていることからも、高いレコメンデーション能力を用いています。
まとめ
筆者がまだ学習中なので、説明はかなり間違っている可能性があります。SAS Viyaで試しつつ & 学習しつつ適宜アップデートしていきます。