Pycaretのsetup関数の引数
PyCaret公式:Home - PyCaret
PyCaretガイド:PyCaret Guide - PyCaret
PyCaret Github:pycaret/pycaret: An open source, low-code machine learning library in Python
- 目的
- setup関数の引数が多いので、調べて、翻訳(DeepL翻訳)した。
- setup関数で何ができるのか確認を促す。
分類 classification PyCaret2.0
パラメータ | 説明 | 詳細 |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features) ここで、n_samplesはサンプル数、n_featuresは特徴量の数です。 |
target | string | 文字列として渡す対象のカラム名。ターゲット変数はバイナリでもマルチクラスでもよい。マルチクラス・ターゲットの場合、すべての推定量はOneVsRest分類器でラップされます。 |
train_size | float, default = 0.7 | トレーニングセットのサイズ。デフォルトでは、データの70%がトレーニングと検証に使用されます。残りのデータはテスト/ホールドアウトセットに使用されます。 |
sampling | bool, default = True | サンプルサイズが25,000サンプルを超えると、pycaretは、元のデータセットからさまざまなサンプルサイズのベース推定器を構築します。これは、モデリングに適したサンプルサイズを決定するのに役立つ、さまざまなサンプルレベルでのAUC、Accuracy、Recall、Precision、Kappa、F1値の性能プロットを返します。その後、パイカレット環境での訓練と検証のために、希望するサンプル・サイズを入力しなければなりません。入力されたsample_sizeが1よりも小さい場合、finalize_model()が呼び出されたときにのみ、残りのデータセット(1 - サンプル)がモデルを適合させるために使用されます。 |
sample_estimator | object, default = None | Noneの場合、デフォルトではロジスティック回帰が使用されます。 |
categorical_features | string, default = None | 推論されたデータ型が正しくない場合、categorical_featuresを使用して推論された型を上書きすることができます。セットアップを実行する際に、'column1'の型がategoricalではなくnumericであると推測される場合、このパラメータを使用してcategorical_features = ['column1']を渡すことで、その型を上書きすることができます。 |
categorical_imputation | string, default = 'constant' | カテゴリ特徴量の中に欠損値が見つかった場合は,一定の「not_available」値で入力されます.もう1つの利用可能なオプションは'mode'で、学習データセットの中で最も頻度の高い値を用いて欠落値を入力します。 |
ordinal_features | dictionary, default = None | データに序列特徴が含まれる場合、 ordinal_features パラメータを用いて異なる符号化を行わなければなりません。データが'low'、'medium'、'high'の値を持つカテゴリ変数を持ち、low < medium < highであることがわかっている場合、 ordinal_features = { 'column_name' : ['low', 'medium', 'high'] }として渡すことができます。リストの順序は、低い順から高い順に増えていくものでなければなりません。 |
high_cardinality_features | string, default = None | カーディナリティの高い特徴量が含まれている場合には,カーディナリティの高いカラム名のリストとして渡すことで,より少ないレベルに圧縮することができます. |
high_cardinality_method | string, default = 'frequency' | 周波数を'frequency'に設定すると、特徴量の元の値を度数分布に置き換えて数値化します。他の利用可能な方法としては、データの統計的属性に対してクラスタリングを行い、特徴量の元の値をクラスタラベルに置き換える「クラスタリング」という方法があります。 |
numeric_features | string, default = None | 推論されたデータ型が正しくない場合、numeric_featuresを使用して推論された型を上書きすることができます。セットアップを実行する際に、'column1'の型が数値ではなくカテゴリとして推論されている場合、このパラメータを使用して、numeric_features = ['column1']を渡すことで上書きすることができます。 |
numeric_imputation | string, default = 'mean' | 数値特徴量の中に欠損値が見つかった場合、その特徴量の平均値を用いて入力されます。もう1つの利用可能なオプションは'median'で、訓練データセットの中央値を使用して値を入力します。 |
date_features | string, default = None | データに、セットアップ実行時に自動検出されないDateTimeカラムがある場合、date_features = 'date_column_name'を渡すことで、このパラメータを使用することができます。複数の日付カラムで動作させることができます。日付カラムはモデリングでは使用されません。代わりに、特徴抽出が実行され、データセットから日付列が削除されます。日付列にタイムスタンプが含まれている場合、時間に関連する特徴も抽出されます。 |
ignore_features | string, default = None | モデリングのために無視すべき特徴がある場合は、param ignore_featuresに渡すことができます。推論されたときのIDとDateTimeの列は、モデリングのために無視するように自動的に設定されます。 |
normalize | bool, default = False | True に設定されている場合、パラメータ normalized_method を用いて特徴空間が変換されます。一般的に,線形アルゴリズムは正規化されたデータの方が優れたパフォーマンスを発揮しますが,結果は異なる場合があります. |
normalize_method | string, default = 'zscore' | 正規化に使用するメソッドを定義します。デフォルトでは、正規化方法は 'zscore' に設定されています。標準の zscore は z = (x - u) / s として計算されます。 |
minmax | 0 - 1の範囲内にあるように、各特徴量を個別にスケーリングして変換します。 | |
maxabs | 各特徴量の絶対値の最大値が1.0になるように,各特徴量を個別にスケーリングし,変換します.これは,データのシフト/センタリングを行わないので,スパリティを破壊しません. | |
robust | 各特徴量をクォークタイル間の範囲に従ってスケーリングし,変換します.データセットに外れ値が含まれている場合,ロバストスケーラーの方が良い結果が得られることが多い. | |
transformation | bool, default = False | Trueに設定すると、データがより正規のガウス風になるように電力変換が適用されます。これは,異種混合性に関連する問題や,正規性が望まれるその他の状況をモデル化するのに便利です.分散を安定させ、歪度を最小化するための最適なパラメータは、最尤法によって推定されます。 |
transformation_method | string, default = 'yeo-johnson' | 変換の方法を定義します。デフォルトでは、変換方法は 'yeo-johnson' に設定されています。他のオプションとして, 'quantile' 変換があります.どちらの変換も,特徴セットをガウス分布または正規分布に従うように変換します.分位変換は非線形であり、同じ尺度で測定された変数間の線形相関を歪める可能性があることに注意してください。 |
handle_unknown_categorical | bool, default = True | Trueに設定されている場合、新規/未見のデータの未知のカテゴリレベルは、学習データで学習された最も頻度の高いレベルまたは最も頻度の低いレベルに置き換えられます。このメソッドは unknown_categorical_method パラメーターで定義されます。 |
unknown_categorical_method | string, default = 'least_frequent' | 不可視データの未知のカテゴリカル・レベルを置き換えるために使用されるメソッド。メソッドは、'least_frequent'または'most_frequent'に設定できます。 |
pca | bool, default = False | True に設定されている場合,pca_method パラメータで定義されている方法を用いて,データを低次元空間に投影するために次元削減が適用されます.教師あり学習では,一般的に,高い特徴空間を扱う場合やメモリが制約となる場合に pca が実行されます.すべてのデータセットが線形PCA手法を用いて効率的に分解できるわけではなく,PCAを適用すると情報が失われる可能性があることに注意してください.そのため、その影響を評価するために、異なるpca_methodsを用いて複数の実験を行うことをお勧めします。 |
pca_method | string, default = 'linear' | 線形メソッドは,特異値分解を使用して線形次元削減を行います.その他の利用可能なオプションは以下の通りです. |
kernel | RVFカーネルを用いた次元削減。 | |
incremental | 分解するデータセットが大きすぎてメモリに収まらない場合に,'linear' pca を置き換える. | |
pca_components | int/float, default = 0.99 | pca_components が float の場合は,情報を保持するための目標パーセンテージとして扱われる.pca_components が整数の場合は,保持する特徴量の数として扱われます. pca_components は,データセットの元の特徴量よりも厳密には少なくなければなりません. |
ignore_low_variance | bool, default = False | Trueに設定すると、統計的に重要でない分散を持つすべてのカテゴリ特徴がデータセットから削除されます。分散は,サンプル数に対する一意の値の比率,および,2番目に多い値の頻度に対する最も一般的な値の比率を用いて計算される. |
combine_rare_levels | bool, default = False | Trueに設定されている場合、param rare_level_thresholdで定義された閾値以下のカテゴリ特徴量のすべてのレベルが、1つのレベルとして結合されます。これを有効にするためには,閾値以下に少なくとも2つのレベルが存在しなければなりません. rare_level_threshold は,レベル頻度のパーセンタイル分布を表します.一般的に,この手法は,カテゴリカル特徴量の中でレベル数が多いことによる疎な行列を制限するために適用されます. |
rare_level_threshold | float, default = 0.1 | まれなカテゴリが結合されるパーセンタイル分布。combine_rare_levelsがTrueに設定されている場合のみ有効になります。 |
bin_numeric_features | list, default = None | 数値特徴量のリストが渡されると,それらはKMeansを用いてカテゴリ特徴量に変換されます.クラスターの数は,'sturges'法に基づいて決定される.これはガウスデータにのみ最適であり、大規模な非ガウスデータセットではビン数を過小評価します。 |
remove_outliers | bool, default = False | Trueに設定すると、特異値分解技術を使用したPCA線形次元削減を使用して、トレーニングデータから外れ値が除去されます。 |
outliers_threshold | float, default = 0.05 | データセットにおける外れ値の割合/割合は,パラメータ outliers_threshold を用いて定義することができます.デフォルトでは,0.05が用いられます.これは,分布の尾部の各辺の値の0.025が学習データから削除されることを意味します. |
remove_multicollinearity | bool, default = False | Trueに設定すると、multicollinearity_thresholdパラメータで定義された閾値よりも高い相互相関を持つ変数が削除されます。2つの特徴量が互いに高い相関を持つ場合,対象変数との相関が低い方の特徴量が削除されます. |
multicollinearity_threshold | float, default = 0.9 | 相関した特徴量を削除するために使用される閾値。remove_multicollinearityがTrueに設定されている場合のみ有効になります。 |
remove_perfect_collinearity | bool, default = False | Trueに設定すると、完全な共線性(相関=1の特徴量)がデータセットから削除され、2つの特徴量が100%相関している場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Trueに設定すると、各インスタンスがクラスタに割り当てられる追加フィーチャが作成されます。クラスターの数は、Calinski-HarabaszとSilhouette基準の組み合わせを使用して決定されます。 |
cluster_iter | int, default = 20 | クラスタの作成に使用される反復回数。各反復はクラスタのサイズを表します。create_clusters パラメータが True に設定されている場合のみ有効です。 |
polynomial_features | bool, default = False | Trueに設定すると、データセット内の数値特徴量の中に存在する、polynomial_degree paramで定義された次数までのすべての多項式の組み合わせに基づいて、新しい特徴量が作成されます。 |
polynomial_degree | int, default = 2 | 多項式特徴量の次数。例えば,入力サンプルが2次元で[a, b]の形式の場合,次数=2の多項式特徴量は次のようになります.1, a, b, a^2, ab, b^2] となります. |
trigonometry_features | bool, default = False | Trueに設定されている場合,データセット内の数値特徴量の中に存在する, polynomial_degree パラメーターで定義された次数までのすべての三角関数の組み合わせに基づいて,新しい特徴量が作成されます. |
polynomial_threshold | float, default = 0.1 | ランダムフォレスト、AdaBoost、線形相関の組み合わせに基づく特徴の重要度が定義された閾値のパーセンタイル内に収まる多項式特徴と三角法特徴をデータセットに保持します。残った特徴量は,さらに処理を進める前に削除される. |
group_features | list or list of list, default = None | データセットに関連する特徴を持つ特徴が含まれている場合, group_features パラメータを統計的特徴抽出に利用することができます.例えば,データセットが互いに関連した数値特徴量('Col1', 'Col2', 'Col3')を持つ場合, group_features の下に列名を含むリストを渡すことで,平均値,中央値,モード,標準偏差などの統計情報を抽出することができます. |
group_names | list, default = None | group_featuresが渡されると、文字列を含むリストとしてgroup_namesパラメータにグループ名を渡すことができます。group_namesのリストの長さは、group_featuresの長さと等しくなければなりません。長さが一致しない場合や名前が渡されなかった場合は、 group_1, group_2 などのように新しい機能が順に命名されます。 |
feature_selection | bool, default = False | Trueに設定すると、ランダムフォレスト、Adaboost、ターゲット変数との線形相関など、さまざまな並べ替え重要度技術の組み合わせを使用して、特徴のサブセットが選択されます。サブセットのサイズは、 feature_selection_paramに依存します。一般的に、これはモデリングの効率を向上させるために特徴空間を制約するために使用されます。polynomial_featuresやfeature_interactionを使用する場合は、feature_selection_thresholdパラメータをより低い値で定義することを強く推奨します。 |
feature_selection_threshold | float, default = 0.8 | 特徴選択に使用されるしきい値(新しく作成された多項式特徴を含む)。値が大きいほど、より大きな特徴空間が得られます。特に多項式特徴と特徴間相互作用が使用される場合には、異なる値のfeature_selection_thresholdを用いて複数回の試行を行うことが推奨されます。非常に低い値を設定することは効率的かもしれませんが、結果的にアンダーフィッティングになる可能性があります。 |
feature_interaction | bool, default = False | Trueに設定すると、データセット内のすべての数値変数(多項式および三角関数特徴(作成された場合)を含む)に対して相互作用(a * b)することで、新しい特徴を作成します。この機能はスケーラブルではなく、大きな特徴空間を持つデータセットでは期待通りには動作しないかもしれません。 |
feature_ratio | bool, default = False | Trueに設定すると、データセット内のすべての数値変数の比率(a / b)を計算して新しい特徴量を作成します。この機能はスケーラブルではなく,特徴空間が大きいデータセットでは期待通りに動作しないかもしれない. |
interaction_threshold | bool, default = 0.01 | polynomial_threshold と同様に,新たに作成された特徴量の疎な行列を相互作用によって圧縮するために使用される.ランダムフォレスト、AdaBoost、線形相関の組み合わせに基づく重要度が、定義された閾値のパーセンタイル内に収まる特徴量は、データセットに保存されます。残った特徴は,さらなる処理の前に削除される. |
fix_imbalance | bool, default = False | データセットに対象クラスの不均等な分布がある場合、fix_imbalanceパラメータを使用して修正することができます。Trueに設定すると、デフォルトでSMOTE (Synthetic Minority Over-sampling Technique)が適用され、マイノリティクラスの合成データポイントが作成されます。 |
fix_imbalance_method | obj, default = None | fix_imbalanceをTrueに設定し、fix_imbalance_methodをNoneに設定した場合、クロスバリデーションの際にマイノリティクラスをオーバーサンプルするために、デフォルトでは'smote'が適用されます。このパラメータは、'fit_resample' メソッドをサポートしている 'imblearn' のモジュールであれば何でも受け付けることができます。 |
data_split_shuffle | bool, default = True | Falseに設定すると、データを分割する際に行がシャッフルされるのを防ぎます。 |
folds_shuffle | bool, default = False | Falseに設定すると、クロスバリデーションを使用しているときに行がシャッフルされるのを防ぎます。 |
n_jobs | int, default = -1 | 並列に実行するジョブの数を指定します(並列処理をサポートしている関数の場合)-1は全てのプロセッサを使用することを意味します。すべての関数を単一のプロセッサで実行するには、n_jobs を None に設定します。 |
html | bool, default = True | Falseに設定すると、モニターの実行時表示を禁止します。HTMLに対応していない環境を使用している場合は、Falseに設定する必要があります。 |
session_id | int, default = None | Noneの場合、ランダムなシードが生成され、Informationグリッドに返されます。その後、実験中に使用されたすべての関数で、一意の番号がシードとして配布されます。これは、実験全体の後の再現性のために使用することができます。 |
log_experiment | bool, default = False | True に設定すると、すべてのメトリクスとパラメータが MLFlow サーバに記録されます。 |
experiment_name | str, default = None | ログを記録する実験の名前。Noneに設定されている場合、デフォルトでは'clf'が実験名のエイリアスとして使用されます。 |
log_plots | bool, default = False | True に設定すると、特定のプロットを png ファイルとして MLflow に記録します。デフォルトでは False に設定されています。 |
log_profile | bool, default = False | True に設定すると、データプロファイルも html ファイルとして MLflow に記録されます。デフォルトでは False に設定されています。 |
log_data | bool, default = False | Trueに設定すると、訓練データとテストデータがcsvとして記録されます。 |
silent | bool, default = False | Trueに設定すると、データ型の確認は不要です。すべての前処理は、自動的に推測されるデータ型を想定して実行されます。確立されたパイプライン以外での直接使用は推奨されません。 |
verbose | Boolean, default = True | verbose が False に設定されている場合、情報グリッドは印刷されません。 |
profile | bool, default = False | true に設定すると、探索的データ分析のデータ プロファイルがインタラクティブな HTML レポートに表示されます。 |
回帰 regression PyCaret2.0
パラメータ | 説明 | 詳細 |
---|---|---|
data | {array-like, sparse matrix} | Shape (n_samples, n_features) ここで、n_samplesはサンプル数、n_featuresは特徴量の数です。 |
target | string | 文字列として渡す対象のカラム名。 |
train_size | float, default = 0.7 | トレーニングセットのサイズ。デフォルトでは、データの70%がトレーニングと検証に使用されます。残りのデータはテスト/ホールドアウトセットに使用されます。 |
sampling | bool, default = True | サンプル・サイズが25,000サンプルを超えると、pycaretは、元のデータセットからさまざまなサンプル・サイズのベース推定器を構築します。これにより、さまざまなサンプルレベルでのR2値の性能プロットが返され、モデリングに適したサンプルサイズを決定するのに役立ちます。 次に、pycaret環境でのトレーニングと検証のために、希望するサンプルサイズを入力する必要があります。入力されたsample_sizeが1よりも小さい場合、finalize_model()が呼ばれたときにのみ、残りのデータセット(1 - sample)がモデルの適合に使用されます。 |
sample_estimator | object, default = None | なしの場合、デフォルトでは線形回帰が使用されます。 |
categorical_features | string, default = None | 推論されたデータ型が正しくない場合、categorical_featuresを使用して推論された型を上書きすることができます。セットアップを実行する際に、'column1'の型がategoricalではなくnumericであると推測される場合、このパラメータを使用してcategorical_features = ['column1']を渡すことで、その型を上書きすることができます。 |
categorical_imputation | string, default = 'constant' | カテゴリ特徴量の中に欠損値が見つかった場合は,一定の「not_available」値で入力されます.もう1つの利用可能なオプションは'mode'で、学習データセットの中で最も頻度の高い値を用いて欠落値を入力します。 |
ordinal_features | dictionary, default = None | データに序列特徴が含まれる場合、 ordinal_features パラメータを用いて異なる符号化を行わなければなりません。データが'low'、'medium'、'high'の値を持つカテゴリ変数を持ち、low < medium < highであることがわかっている場合、 ordinal_features = { 'column_name' : ['low', 'medium', 'high'] }として渡すことができます。リストの順序は、低い順から高い順に増えていくものでなければなりません。 |
high_cardinality_features | string, default = None | データに高カルディナリティの特徴量が含まれている場合,高カルディナリティのカラム名のリストとして渡すことで,より少ないレベルに圧縮することができます.特徴量の圧縮は,param high_cardinality_method で定義されている方法で行います. |
high_cardinality_method | string, default = 'frequency' | 周波数を'frequency'に設定すると、特徴量の元の値を度数分布に置き換えて数値化します。他の利用可能な方法としては、データの統計的属性に対してクラスタリングを行い、特徴量の元の値をクラスタラベルに置き換える「クラスタリング」という方法があります。 |
numeric_features | string, default = None | 推論されたデータ型が正しくない場合、numeric_featuresを使用して推論された型を上書きすることができます。セットアップを実行する際に、'column1'の型が数値ではなくカテゴリとして推論されている場合、このパラメータを使用して、numeric_features = ['column1']を渡すことで上書きすることができます。 |
numeric_imputation | string, default = 'mean' | 数値特徴量の中に欠損値が見つかった場合、その特徴量の平均値を用いて入力されます。もう1つの利用可能なオプションは'median'で、訓練データセットの中央値を使用して値を入力します。 |
date_features | string, default = None | データに、セットアップ実行時に自動検出されないDateTimeカラムがある場合、date_features = 'date_column_name'を渡すことで、このパラメータを使用することができます。複数の日付カラムで動作させることができます。日付カラムはモデリングでは使用されません。代わりに、特徴抽出が実行され、データセットから日付列が削除されます。日付列にタイムスタンプが含まれている場合、時間に関連する特徴も抽出されます。 |
ignore_features | string, default = None | モデリングのために無視すべき特徴がある場合は、param ignore_featuresに渡すことができます。推論されたときのIDとDateTimeの列は、モデリングのために無視するように自動的に設定されます。 |
normalize | bool, default = False | True に設定されている場合、パラメータ normalized_method を用いて特徴空間が変換されます。一般的に,線形アルゴリズムは正規化されたデータの方が優れたパフォーマンスを発揮しますが,結果は異なる場合があります. |
normalize_method | string, default = 'zscore' | 正規化に使用するメソッドを定義します。デフォルトでは、正規化方法は 'zscore' に設定されています。標準の zscore は z = (x - u) / s として計算されます。 |
minmax | minmax' : 0 - 1の範囲内にあるように、各特徴量を個別にスケーリングして変換します。 | |
maxabs | maxabs': 各特徴量の絶対値の最大値が1.0になるように,各特徴量を個別にスケーリングし,変換します.これは,データのシフト/センタリングを行わないので,スパリティを破壊しません. | |
robust | robust': 各特徴量をクォークタイル間の範囲に従ってスケーリングし,変換します.データセットに外れ値が含まれている場合,ロバストスケーラーの方が良い結果が得られることが多い. | |
transformation | bool, default = False | Trueに設定すると、データをより正規化/ガウス風にするために乗数変換が適用されます。これは,異種混合性に関連する問題や,正規性が望まれるその他の状況をモデル化するのに便利です.分散を安定させ、歪度を最小化するための最適なパラメータは、最尤法によって推定されます。 |
transformation_method | string, default = 'yeo-johnson' | 変換の方法を定義します。デフォルトでは、変換方法は 'yeo-johnson' に設定されています。他のオプションとして,'quantile' 変換があります.どちらの変換も,特徴セットをガウス分布または正規分布に従うように変換します.分位変換は非線形であり、同じ尺度で測定された変数間の線形相関を歪める可能性があることに注意してください。 |
handle_unknown_categorical | bool, default = True | Trueに設定されている場合、新規/未見のデータの未知のカテゴリレベルは、学習データで学習された最も頻度の高いレベルまたは最も頻度の低いレベルに置き換えられます。このメソッドは unknown_categorical_method パラメーターで定義されます。 |
unknown_categorical_method | string, default = 'least_frequent' | 不可視データの未知のカテゴリカル・レベルを置き換えるために使用されるメソッド。メソッドには 'least_frequent' または 'most_frequent' を設定することができます。 |
pca | bool, default = False | True に設定されている場合,pca_method パラメータで定義されている方法を用いて,データを低次元空間に投影するために次元削減が適用されます.教師あり学習では,一般的に,高い特徴空間を扱う場合やメモリが制約となる場合に pca が実行されます.すべてのデータセットが線形PCA手法を用いて効率的に分解できるわけではなく,PCAを適用すると情報が失われる可能性があることに注意してください.そのため、その影響を評価するために、異なるpca_methodsを用いて複数の実験を行うことをお勧めします。 |
pca_method | string, default = 'linear' | 線形メソッドは,特異値分解を使用して線形次元削減を行います.その他の利用可能なオプションは以下の通りです. |
kernel | RVFカーネルを用いた次元削減。 | |
incremental | 分解するデータセットが大きすぎてメモリに収まらない場合に,'linear' pca を置き換える. | |
pca_components | int/float, default = 0.99 | pca_components が float の場合は,情報を保持するための目標パーセンテージとして扱われる.pca_components が整数の場合は,保持する特徴量の数として扱われます. pca_components は,データセットの元の特徴量よりも厳密には少なくなければなりません. |
ignore_low_variance | bool, default = False | Trueに設定すると、統計的に重要でない分散を持つすべてのカテゴリ特徴がデータセットから削除されます。分散は,サンプル数に対する一意の値の比率,および,2番目に多い値の頻度に対する最も一般的な値の比率を用いて計算される. |
combine_rare_levels | bool, default = False | Trueに設定されている場合、param rare_level_thresholdで定義された閾値以下のカテゴリ特徴量のすべてのレベルが、1つのレベルとして結合されます。これを有効にするためには,閾値以下に少なくとも2つのレベルが存在しなければなりません. rare_level_threshold は,レベル頻度のパーセンタイル分布を表します.一般的に,この手法は,カテゴリカル特徴量の中でレベル数が多いことによる疎な行列を制限するために適用されます. |
rare_level_threshold | float, default = 0.1 | まれなカテゴリが結合されるパーセンタイル分布。combine_rare_levelsがTrueに設定されている場合のみ有効になります。 |
bin_numeric_features | list, default = None | 数値特徴量のリストが渡されると,それらはKMeansを用いてカテゴリ特徴量に変換されます.クラスターの数は,'sturges'法に基づいて決定される.これはガウスデータにのみ最適であり、大規模な非ガウスデータセットではビン数を過小評価します。 |
remove_outliers | bool, default = False | Trueに設定すると、特異値分解技術を使用したPCA線形次元削減を使用して、トレーニングデータから外れ値が除去されます。 |
outliers_threshold | float, default = 0.05 | データセットにおける外れ値の割合/割合は,パラメータ outliers_threshold を用いて定義することができます.デフォルトでは,0.05が用いられます.これは,分布の尾部の各辺の値の0.025が学習データから削除されることを意味します. |
remove_multicollinearity | bool, default = False | Trueに設定すると、multicollinearity_thresholdパラメータで定義された閾値よりも高い相互相関を持つ変数が削除されます。2つの特徴量が互いに高い相関を持つ場合,対象変数との相関が低い方の特徴量が削除されます. |
multicollinearity_threshold | float, default = 0.9 | 相関した特徴量を削除するために使用される閾値。remove_multicollinearityがTrueに設定されている場合のみ有効になります。 |
remove_perfect_collinearity | bool, default = False | Trueに設定すると、完全な共線性(相関=1の特徴量)がデータセットから削除され、2つの特徴量が100%相関している場合、そのうちの1つがランダムにデータセットから削除されます。 |
create_clusters | bool, default = False | Trueに設定すると、各インスタンスがクラスタに割り当てられる追加フィーチャが作成されます。クラスターの数は、Calinski-HarabaszとSilhouette基準の組み合わせを使用して決定されます。 |
cluster_iter | int, default = 20 | クラスタの作成に使用される反復回数。各反復はクラスタのサイズを表します。create_clusters パラメータが True に設定されている場合のみ有効です。 |
polynomial_features | bool, default = False | Trueに設定すると、データセット内の数値特徴量の中に存在する、polynomial_degree paramで定義された次数までのすべての多項式の組み合わせに基づいて、新しい特徴量が作成されます。 |
polynomial_degree | int, default = 2 | 多項式特徴量の次数。例えば,入力サンプルが2次元で[a, b]の形式の場合,次数=2の多項式特徴量は次のようになります.1, a, b, a^2, ab, b^2] となります. |
trigonometry_features | bool, default = False | Trueに設定されている場合,データセット内の数値特徴量の中に存在する, polynomial_degree パラメーターで定義された次数までのすべての三角関数の組み合わせに基づいて,新しい特徴量が作成されます. |
polynomial_threshold | float, default = 0.1 | これは,多項式特徴量と三角関数特徴量の疎な行列を圧縮するために使用される.ランダムフォレスト,AdaBoost,線形相関の組み合わせに基づく特徴の重要度が,定義されたしきい値のパーセンタイル内に収まる多項式特徴と三角関数特徴は,データセットに保持される.残った特徴は,さらなる処理の前に削除される. |
group_features | list or list of list, default = None | データセットに関連する特徴を持つ特徴が含まれている場合, group_featuresparam を統計的特徴抽出に用いることができる.例えば,データセットが互いに関連した数値特徴量('Col1', 'Col2', 'Col3')を持つ場合, group_featuresの下に列名を含むリストを渡すことで,平均値,中央値,モード,標準偏差などの統計情報を抽出することができます. |
group_names | list, default = None | group_featuresが渡されると、文字列を含むリストとしてgroup_namesパラメータにグループ名を渡すことができます。group_namesのリストの長さは、group_featuresの長さと等しくなければなりません。長さが一致しない場合や名前が渡されなかった場合は、 group_1, group_2 などのように新しい機能が順に命名されます。 |
feature_selection | bool, default = False | Trueに設定すると、ランダムフォレスト、Adaboost、ターゲット変数との線形相関など、さまざまな並べ替え重要度技術の組み合わせを使用して、特徴のサブセットが選択されます。サブセットのサイズは、 feature_selection_paramに依存します。一般的に、これはモデリングの効率を向上させるために特徴空間を制約するために使用されます。polynomial_featuresやfeature_interactionを使用する場合は、feature_selection_thresholdパラメータをより低い値で定義することを強く推奨します。 |
feature_selection_threshold | float, default = 0.8 | 特徴選択に使用されるしきい値(新しく作成された多項式特徴を含む)。値が大きいほど特徴量が多くなります。特に多項式特徴と特徴間相互作用を利用する場合には、異なる値のfeature_selection_thresholdを用いて複数回の試行を行うことを推奨します。非常に低い値を設定すると効率的ですが、結果的にアンダーフィッティングになる可能性があります。 |
feature_interaction | bool, default = False | Trueに設定すると、データセット内のすべての数値変数(多項式および三角関数特徴(作成された場合)を含む)に対して相互作用(a * b)することで、新しい特徴を作成します。この機能はスケーラブルではなく、大きな特徴空間を持つデータセットでは期待通りには動作しないかもしれません。 |
feature_ratio | bool, default = False | Trueに設定すると、データセット内のすべての数値変数の比率(a / b)を計算して新しい特徴量を作成します。この機能はスケーラブルではなく、大きな特徴空間を持つデータセットでは期待通りには動作しないかもしれません。 |
interaction_threshold | bool, default = 0.01 | polynomial_threshold と同様に,新たに作成された特徴量の疎な行列を相互作用によって圧縮するために使用される.ランダムフォレスト、AdaBoost、線形相関の組み合わせに基づく重要度が、定義された閾値のパーセンタイル内に収まる特徴量は、データセットに保存されます。残った特徴は,さらなる処理の前に削除される. |
transform_target | bool, default = False | True に設定すると、transform_target_method パラメーターで定義されている方法でターゲット変数を変換します。ターゲット変換は、特徴量変換とは別に適用されます。 |
transform_target_method | string, default = 'box-cox' | Box-cox' および 'yeo-johnson' 法がサポートされています。Box-Cox は入力データが厳密に正の値である必要がありますが、Yeo-Johnson は正または負のデータの両方をサポートしています。transform_target_method が 'box-cox' で、ターゲット変数に負の値が含まれている場合、例外を避けるためにメソッドは内部的に 'yeo-johnson' に強制されます。 |
data_split_shuffle | bool, default = True | Falseに設定すると、データを分割する際に行がシャッフルされるのを防ぎます。 |
folds_shuffle | bool, default = True | Falseに設定すると、クロスバリデーションを使用しているときに行がシャッフルされるのを防ぎます。 |
n_jobs | int, default = -1 | 並列に実行するジョブの数を指定します(並列処理をサポートしている関数の場合)-1は全てのプロセッサを使用することを意味します。すべての関数を単一のプロセッサで実行するには、n_jobs を None に設定します。 |
html | bool, default = True | Falseに設定すると、モニターの実行時表示を禁止します。HTMLに対応していない環境を使用している場合は、Falseに設定する必要があります。 |
session_id | int, default = None | Noneの場合、ランダムなシードが生成され、Informationグリッドに返されます。その後、実験中に使用されたすべての関数で、一意の番号がシードとして配布されます。これは、実験全体の後の再現性のために使用することができます。 |
log_experiment | bool, default = False | True に設定すると、すべてのメトリクスとパラメータが MLFlow サーバに記録されます。 |
experiment_name | str, default = None | ログを記録する実験の名前。Noneに設定されている場合、デフォルトでは'reg'が実験名のエイリアスとして使用されます。 |
log_plots | bool, default = False | True に設定すると、特定のプロットを png ファイルとして MLflow に記録します。デフォルトでは False に設定されています。 |
log_profile | bool, default = False | True に設定すると、データプロファイルも html ファイルとして MLflow に記録されます。デフォルトでは False に設定されています。 |
log_data | bool, default = False | Trueに設定すると、訓練データとテストデータがcsvとして記録されます。 |
silent | bool, default = False | Trueに設定すると、データ型の確認は不要です。すべての前処理は、自動的に推測されるデータ型を想定して実行されます。確立されたパイプライン以外での直接使用は推奨されません。 |
verbose | Boolean, default = True | verbose が False に設定されている場合、情報グリッドは印刷されません。 |
profile | bool, default = False | true に設定すると、探索的データ分析のデータ プロファイルがインタラクティブな HTML レポートに表示されます。 |