5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

DatabricksAdvent Calendar 2021

Day 20

PySpark: LightGBM on Sparkを使ってみる

Last updated at Posted at 2021-12-20

SynapseMLとは

Spark上で大規模データセットを用いた機械学習を効率よく行うために設計されたライブラリ。
Microsoftによって公開されており、最近MMLSparkからSynapseMLに名前が変わった。

SynapseMLを使うことでSpark上でLightGBMの使用が可能になり、
HiggsデータセットにおいてはSparkMLより10-30%高速で、AUCは15%向上することが検証されている。

SynapseMLをDatabricksにインストールする方法

  1. Library Sourceとして「Maven」を選択
  2. Coordinatesに「com.microsoft.azure:synapseml_2.12:0.9.4」を入力
  3. Repositoryに「https://mmlspark.azureedge.net/maven」 を入力
  4. 「Install」ボタンを押下

gif.gif

##Sample Code

# 学習・検証データに分割
train, test = df.randomSplit([0.85, 0.15], seed=1)

# モデルの構築
from synapse.ml.lightgbm import LightGBMClassifier

params = {
  'numIterations': 200,
  'learningRate': .2,
  'maxDepth': 7,
  'lambdaL2': 1.,
  'numLeaves': 31
}
model = LightGBMClassifier(featuresCol="features", labelCol="target", **params)

# モデルの学習
model = model.fit(train)

# 予測
predictions = model.transform(test)
5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?