はじめに
この記事では、LightGBMのパラメータについてまとめていきます。公式ドキュメントを日本語訳しただけですが、参考になれば幸いです。(LightGBM自体の話も随時更新していきたいと思います。)
重要な3つのパラメータ
max_depth
使用する木の深さを指定します。num_leaves
というパラメータと一緒に考えていきます。
num_leaves
モデルの複雑さを決めるパラメータになります。理論的には、2^(max_depth
) が良いみたいですが、実務的には、2^(max_depth
)よりも小さい値が良いみたいです。max_depth
を7に指定した場合は、num_leaves
は70~80くらいに指定したらいいのでは?と書いてありました。
min_data_in_leaf
オーバーフィット(過学習)を防ぐために、重要なパラメータになります。トレーニングデータのサンプル数とnum_leaves
の値によって決めようと書かれてます。大きいサンプル数を扱う場合は、数百から数千くらいの値が良いみたいです。
最後に
綺麗にまとまっているサイト見つけました。こちらも是非一読を!