この記事はMachine Learning Advent Calendar19日目の記事です。
HivemallがApache Incubation入りした話と、来年リリース予定の新機能に関して書きたいと思います。
祝 Apache Incubator!
まず今年はHivemallがApache Incubation projectに選ばれました。
機械学習ライブラリHivemallが米国Apacheソフトウェア財団の育成プロジェクトに認定
日本発のOSSとしては初めてのことらしいです。HivemallはHadoopやSpark上で動作するUDFのコレクションとして実装されていて、機械学習のアルゴリズムだけでなくfeature engineeringや自然言語処理、更にはパラメータサーバ(mix server)の実装なども含まれています。機能も豊富なHivemallですが、他の機械学習ライブラリと比較して特徴づけられるものとして以下の2点があげられます。
- SQLクエリで実行できるため新しいsyntaxやインタフェースを覚える必要がない
- HadoopやSparkなど既存のスケーラブルなプラットフォームの上で動作する
こういった点も評価されてIncubation入りを果たしました。Apache Incubatorはトッププロジェクトへの昇格のための登竜門という位置づけなので、これからコミュニティを拡大させたり、開発を加速させることでトッププロジェクト入りを目指していきたいと思います。
そんなHivemallですが、来年の早い時期にIncubator後最初のリリースを予定しています。この記事では、次のリリースで予定されている機能のいくつかを紹介したいと思います。まだunder reviewなものも含まれますので、詳細はリリース時と異なる可能性があります。雰囲気だけ読んでいただければと思います。
Docs & Resources
まずHivemallのサイト, GitHubリポジトリが新しくなりました。これはIncubationに伴ったものですが、ドキュメントも見やすくなりましたので、今後はこちらを参照ください。
使い方は今まで変わっていません。今までのリリースはGitHub releasesにあり、これをダウンロードしてHive consoleで下記のようにjarをインストールします。
add jar /home/myui/tmp/hivemall-core-xxx-with-dependencies.jar;
source /home/myui/tmp/define-all.hive;
もし自前でビルドしたものを使いたい場合、ビルド手順は以下のようになります。.
# This is a workaround for resolving xgboost dependencies.
$ mvn validate -Pxgboost
$ mvn clean package
サイトのリソースはリポジトリのsrc/siteにありますので、加筆修正必要な箇所見つけましたらPull Requestお願いします。
Kernelized Passive Aggressive
Treasure Data春のインターンで来てくれた L3Sotaさんが開発してくれました。
Passive Aggressiveを使ったregressor, classifierは既にHivemallにはあったのですが、Kernelized Passive Aggressiveは予測スコアを計算するときにモデルパラメタとの積ではなく、各サポートベクトルとの距離をカーネル関数を使って計算します。
Passive Aggressiveは下記のモデルで表現される$\bf{w}$を最適化するようなアルゴリズムですが
\phi_{PA}(\bf{x}) = \bf{w} \dot \bf{x} - \bf{b}
Kernelized PAではモデルは下記で表されます。
\phi_{KPA} ( \bf{x} ) = \sum_{i} \alpha_{i} K(\bf{x}, \bf{x_i})
$\bf{x_i}$はサポートベクトル。$K$はカーネル関数。$\alpha$が学習すべきパラメータになります。Kernel SVMと同じようにサンプルをより高次元へのマッピングして暗に計算してくれるので線形モデルよりも表現力の高いモデルになります。
Hivemallの実装ではこのカーネル関数は多項式カーネルのみが実装されています。
K(\bf{x}, \bf{x_i}) = (\bf{x} \dot \bf{x_i} + c)^d
ほぼKernel SVMと同じようなアルゴリズムなのですが、
- 分類に失敗したサンプルのみパラメタ$\alpha$を更新
protected void updateKernel(final float label,
final float loss, final PredictionResult margin,
FeatureValue[] features) {
if (loss > 0.f) { // y * p < 1
float eta = pa1 ? eta1(loss, margin) : pa2 ? eta2(loss, margin) : eta(loss, margin);
float diff = eta * label;
alpha.add(diff);
} else {
// 予測には使わない
alpha.add(0.f);
}
}
という点が特徴となっています。この実装はPR 13でunder reviewです。
ref: Spring 2016 Intern at Treasure Data
New Optimizer system
今までのHivemallでは分類のためのUDFとパラメタの最適化アルゴリズムが密結合していて、最適化アルゴリズムを柔軟に変更したり、あるいは複数のUDFで共有したりというのが難しくなっていました。そこでこれを分離して使いやすくしようとしているのが下記のPRになります。
Optimizer
クラスは下記のAPIを持ちます。
public interface Optimizer {
/**
* Update the weights of models thru this interface.
*/
float computeUpdatedValue(@Nonnull Object feature, float weight, float gradient);
// Count up #step to tune learning rate
void proceedStep();
}
computeUpdatedValue
ではfeature
とそれに対応するモデルの重みパラメタ、そしてその勾配を受取り、更新後の値を返します。Hivemallでは特徴はFeatureValue
というクラスで表現されており、特徴からその値へのKey-Valueペアになっています。feature
はこのキーの方に対応します。proceedStep
は学習率の調整を行うためイテレーションをひとつ進めます。
このクラスは分類問題、回帰問題用の各抽象クラス(GeneralClassifierUDTF
, GeneralRegressionUDTF
)の中で使われています。
// 特徴を取得
Object feature = f.getFeature();
// その特徴の値を取得
float xi = f.getValueAsFloat();
// その特徴に対応するモデルパラメタの現在地を取得
float weight = model.getWeight(feature);
// 次の値を計算。ここで`Optimizer`を使う
float new_weight = optimizerImpl.computeUpdatedValue(feature, weight, -label * xi);
model.setWeight(feature, new_weight);
このOptimizer
は現在
- Stochastic Gradient Descent
- AdaDelta
- AdaGrad
- Adam
の4種類が実装されていますがUDFとしてユーザからデフォルト利用できるのはAdaGradになっています。今後増やして行きたいと思います。
System Test Framework
Hive UDFのテストはきちんとやろうとするとHadoopの環境が必要になるので、ユニットテストを走らせようと思うと結構たいへんでした。より簡単に実環境に近い形でテストを可能にしたのがSystem Test Frameworkです。このSystem Test Frameworkでは下記のようにRunnerとTeamというものを定義します。Runnerはテストを走らせる環境、Teamがその上で走るテストスイートを管理します。Runnerとして現在実装されているのは下記の2つです。
- HiveSystemTestRunner: Hive UDF用のテストフレームワーク HiveRunner上で動作します。
- TDSystemTestRunner: Treasure Data Serviceの上で動作します。
HiveSystemTestRunnerが主にローカルでのテスト用、TDSystemTestRunnerがクラウドサービスであるTreasure Data上での確認用に使われます。
使い方として例えば下記のようにRunnerを用意します。この場合はHiveSystemTestRunnerです。
@ClassRule
public static HiveSystemTestRunner hRunner = new HiveSystemTestRunner(ci) {
{
// データをロードし、テーブルを作成します。
initBy(HQ.uploadByResourcePathAsNewTable("color", ci.initDir + "color.tsv",
new LinkedHashMap<String, String>() {
{
put("name", "string");
put("red", "int");
put("green", "int");
put("blue", "int");
}
})); // create table `color`, which is marked as immutable, for this test class
// テストに必要なUDF、関数をここで登録します。
initBy(HQ.fromStatement("CREATE TEMPORARY FUNCTION hivemall_version as 'hivemall.HivemallVersionUDF'"));
}
};
次にこのRunnerをteamに追加して、テストを実行します。
// デフォルトのRunnerとして先程のHiveSystemTestRunnerを追加
@Rule
public SystemTestTeam team = new SystemTestTeam(hRunner);
@Test
public void test0() throws Exception {
team.add(otherRunner); // 必要であれば他のRunnerを追加することも可能
// テストクエリとexpectationをセット
team.set(HQ.fromStatement("SELECT name FROM color WHERE blue = 255 ORDER BY name"), "azure\tblue\tmagenta", true);
// クエリを実行して検証する
team.run();
}
これだけでHivemall UDFのテストができるようになったので開発がより簡単になるはずです。この機能はTreasure Data夏のインターン来てくれていたamaya382さんが開発してくれました。
see: PR 12
その他
この他の新機能も紹介したいと思います。
SST based Change finder
Singular Spectrum Transformationを使ったChange finderです。Anomaly Detectionなどに用いることができます。この機能もTreasure Data夏のインターンに来てくれていたtakutiさんが開発してくれました。
see: PR 11
Feature binning, Onehot encoding
Feature TransformationのひとつとしてFeature BinningとOnehot Encodingが実装されました。
Feature Binningは連続的な特徴を予め定義された範囲の下でラベル値に変換するUDFです。
Onehot Encodingはラベル特徴量をone-of-k符号化で2値ベクトルに変換するUDFです。
see: Implement feature binning (#322)
see: Onehot encoding (#357)
Binary responses measures for item recommendation
主にレコメンデーションアルゴリズムを評価するためのmetricsが幾つか追加されました。
- Precision
- Recall
- MRR(Mean Reciprocal Rank)
- MAP(Mean Average Precision)
- AUC(Area under the ROC curve)
see: Implemented UDAFs of the additional binary responses measures
まとめ
大事なことですが、ここで紹介した機能はリリース時には**実装、使い方含めて変更されているかもしれません。**利用される場合は改めてUser Guideを参照ください。またHivemallはApache Incubatorになり一層User, Developerからのfeedback, contributionを歓迎していますので、興味のある方は是非Mailing List, JIRAをチェックしてみてください。