RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Generalized Linear Model

概要

H2O 3.8.2.6を使用してGLMアルゴリズムを実行します。

詳細

このアルゴリズムの結果は、使用されるスレッドの数に依存する可能性があることに注意してください。設定が異なると、出力がわずかに異なる場合があります。

一般化線形モデル(GLM)は、従来の線形モデルを拡張したものです。このアルゴリズムは、対数尤度を最大化することにより、一般化線形モデルをデータに適合させます。エラスティックネットペナルティは、パラメーターの正則化に使用できます。モデルフィッティングの計算は、並列で非常に高速であり、非ゼロ係数の限られた数の予測変数を持つモデルに対して非常にうまくスケーリングされます。

オペレーターは、1ノードのローカルH2Oクラスターを開始し、その上でアルゴリズムを実行します。 1つのノードを使用しますが、実行は並列です。設定/環境設定/一般/スレッド数の設定を変更することにより、並列処理のレベルを設定できます。デフォルトでは、システムに推奨されるスレッド数を使用します。クラスターの1つのインスタンスのみが開始され、RapidMiner Studioを閉じるまで実行され続けます。

バージョン7.6より下では、最大Fメジャーに最適化されたしきい値がデフォルトで予測に使用されることに注意してください。

入力

  • トレーニングセット (IOObject)入力ポートには、ラベル付きのExampleSetが必要です。

出力

  • モデル一般化線形分類または回帰モデルは、この出力ポートから提供されます。この分類または回帰モデルは、ラベル属性の予測のために、見えないデータセットに適用できます。
  • サンプルセット (IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。
  • 重み (平均ベクトル)このポートは、ラベル属性に関する属性の重みを提供します。
  • 敷居このポートは、二項分類タスクにのみ使用されます。最大Fメジャーに最適化されたしきい値を提供します。 H2Oによって計算されたこのしきい値を使用する場合は、この出力をスコアリングされたExampleSetとともにしきい値の適用演算子に接続します。 (デフォルトでは、RapidMinerはモデルを適用するときに0.5のしきい値を使用します。)

パラメーター

  • family。ロジスティック回帰による分類には二項式を使用し、その他は回帰問題用です。
    • AUTO:自動選択。多項式に多項、二項に二項、数値ラベルにガウスを使用します。
    • gaussian:データは数値(実数または整数)でなければなりません。
    • binomial:データは、2つのレベル/クラスを持つ二項または多項式でなければなりません。
    • multinomial:データは3つ以上のレベル/クラスを持つ多項式でなければなりません。
    • poisson:データは、数値で非負(整数)でなければなりません。
    • gamma:データは数値で連続的で正(実数または整数)でなければなりません。
    • tweedie:データは数値で連続的(実数)で非負でなければなりません。

    範囲:選択

  • solver使用するソルバーを選択します。 I_RLSMは、予測子の数が少ない問題やL1ペナルティを使用したラムダ検索では高速ですが、L_BFGSは多くの列を含むデータセットに対してより適切にスケーリングします。 COORDINATE_DESCENTはIRLSMであり、共分散は最も内側のループの周期的座標降下の更新バージョンです。 COORDINATE_DESCENT_NAIVEはIRLSMであり、最も内側のループの周期的座標降下の素朴な更新バージョンです。 COORDINATE_DESCENT_NAIVEおよびCOORDINATE_DESCENTは現在実験中です。値:
    • AUTO
    • IRLSM
    • L_BFGS
    • COORDINATE_DESCENT(実験的)
    • COORDINATE_DESCENT_NAIVE(実験的)

    範囲:選択

  • link関数は、線形予測子を分布関数に関連付けます。デフォルトは、指定されたファミリの正規リンクです。他のリンクタイプは1つしか使用できないため、ガウス、ポアソン、ガンマファミリでのみ使用できます。
    • Family:二項;リンク:ロジット
    • Family:多項;リンク:多項
    • Family:トゥイーディー;リンク:tweedie
    • family_default:ガウスには恒等式を使用し、位置には対数を使用し、ガンマ系には逆数を使用します。
    • identity:可能な家族オプション:ガウス、ポアソン、ガンマ
    • log:可能なファミリーオプション:Gaussian、Poisson、Gamma
    • inverse:可能なファミリーオプション:ガウス、ガンマ

    Range:選択

  • reproducibleモデルの構築を再現可能にします。設定されている場合、maximum_number_of_threadsパラメーターは、モデル作成の並列処理レベルを制御します。設定されていない場合、並列性レベルは一般設定のスレッド数によって定義されます。 範囲:ブール
  • maximum_number_of_threadsモデル作成の並列処理レベルを制御します。 範囲:整数
  • Specify_beta_constraints有効にすると、通常の属性のベータ制約を提供できます。 範囲:ブール
  • use_regularization正則化を使用する必要がある場合は、このボックスをオンにします。正則化のために、ラムダ、アルファ、およびラムダ検索関連のパラメータを指定できます。 alphaまたはlambdaが未定義(デフォルト)の場合、H2Oはトレーニングデータと他のパラメーターに基づいてそれらのデフォルト値を計算します。このパラメーターがfalseに設定されている場合、lambdaは0.0に設定されます(正則化を意味しない)。 範囲:ブール
  • lambda lambdaパラメーターは、適用される正規化の量を制御します。 lambdaが0.0の場合、正則化は適用されず、alphaパラメーターは無視されます(use regularizationパラメーターを無効にすることでこれを設定できます)。ラムダのデフォルト値は、トレーニングデータに基づくヒューリスティックを使用してH2Oによって計算されます。拡張パラメーターを介して複数のラムダ値を提供すると、検索がトリガーされます。 範囲:実数
  • lambda_search与えられたラムダが最小ラムダとして解釈される場合、最大ラムダから開始して、ラムダ値のスペースを検索するかどうかを示す論理値。デフォルトはfalseです。 範囲:ブール
  • number_of_lambdasラムダ検索= trueの場合のラムダ値の数。 0は優先度がないことを意味します。 範囲:整数
  • lambda_min_ratio lambda.maxの小数としてのラムダの最小値、エントリ値。これは、モデル内のすべての係数がゼロになる最小値です。観測値の数が変数の数より大きい場合、デフォルトのlambda_min_ratio = 0.0001;観測値の数が変数の数よりも少ない場合、デフォルトのlambda_min_ratio = 0.01です。デフォルトは0.0で、優先度がないことを意味します。 範囲:実数
  • early_stopping停止ラウンドと停止許容範囲パラメーターに基づいて、ラムダ検索で早期停止を実行する必要がある場合は、このボックスをオンにします。使用される停止メトリックは常に逸脱です。 範囲:ブール
  • starting_rounds starting_metricの収束に基づく早期停止。イベントをスコアリングするk:= stopping_roundsについて、stopping_metricの長さkの単純な移動平均が改善されない場合は停止します。 範囲:整数
  • starting_toleranceメトリックベースの停止基準の相対的な許容範囲(相対的な改善がこれほど大きくない場合は停止します)。 範囲:実数
  • alpha alphaパラメーターは、L1(Lasso)とL2(Ridge回帰)のペナルティ間の分布を制御します。アルファの値1.0は、なげなわを表し、0.0のアルファ値は、リッジ回帰を生成します。拡張パラメーターを介して複数のアルファ値を指定すると、検索がトリガーされます。 L-BFGSソルバーのデフォルトは0.0、それ以外は0.5です。 範囲:実数
  • standardize 数値列を標準化して平均値と単位分散をゼロにします範囲:ブール値
  • non-negative_coefficients係数(切片ではない)を非負に制限します。 範囲:ブール
  • compute_p-values p値の計算を要求します。 P値はIRLSMソルバーでのみ機能し、正則化は機能しません。インターセプトもモデルに追加する必要があります。さらに、p値を計算するには、非負の係数とベータ制約パラメーターの指定をfalseに設定する必要があります。 範囲:ブール
  • remove_collinear_columns線形依存列の場合、依存列の一部を削除します。モデルにインターセプトが追加されている場合にのみ機能します。 範囲:ブール
  • add_interceptモデルに定数項を含めます。 範囲:ブール
  • missing_values_handling欠損値の処理。 SkipまたはMeanImputationのいずれか。
    • スキップ:欠損値はスキップされます。
    • MeanImputation:欠損値は平均値に置き換えられます。

    範囲:選択

  • max_iterations反復の最大数。 0は制限なしを意味します。 範囲:整数
  • beta_constraintsベータ値の制約。行は次の値で構成されます。名前
    • 属性名:属性の名前。
    • カテゴリ:属性のドメインからの値。正確な値を指定するよう注意してください。複数のカテゴリの制約を指定するには、より多くの行を使用します。

    制約

    • 下限:ベータの下限。
    • 上限:ベータの上限。
    • ベータ指定:近位オペレーターインターフェイスで指定されたソリューションを指定します。近位のオペレーターインターフェイスを使用すると、指定された特定のソリューションからの距離に対して近位のペナルティを使用してGLMを実行できます。
    • ベータ開始:ベータの開始値。

    範囲:リスト

  • max_runtime_secondsモデルトレーニングの最大許容実行時間(秒)。 0を使用して無効にします。 範囲:整数
  • expert_parametersこれらのパラメーターは、アルゴリズムを微調整するためのものです。通常、デフォルト値は適切なモデルを提供しますが、場合によってはそれらを変更すると役立つ場合があります。ブール値パラメーターにはtrue / false値を使用し、列には正確な属性名を使用してください。コンマ(、)文字で値を分割することにより、配列を提供できます。パラメーターの詳細については、H2Oのドキュメントをご覧ください。
    • score_each_iteration:モデルトレーニングの各反復中にスコアを付けるかどうか。タイプ:ブール値、デフォルト:false
    • fold_assignment:fold_columnが指定されていない場合のクロス検証フォールド割り当てスキーム。オプション:AUTO、ランダム、モジュロ、成層。タイプ:列挙、デフォルト:AUTO
    • fold_column:観測ごとの交差検証フォールドインデックス割り当てを含む列名。タイプ:列、デフォルト:折りたたみ列なし
    • offset_column:オフセット列名。タイプ:列、デフォルト:オフセット列なし
    • max_confusion_matrix_size:ログに印刷される混同マトリックスの最大サイズ(#クラス)。タイプ:整数、デフォルト:20
    • keep_cross_validation_predictions:交差検証モデルの予測を保持します。タイプ:ブール値、デフォルト:false
    • keep_cross_validation_fold_assignment:クロス検証フォールド割り当てを保持します。タイプ:ブール値、デフォルト:false
    • tweedie_variance_power:family = “tweedie”の場合の分散関数のべき乗を指定する数値。タイプ:実数、デフォルト:0
    • tweedie_link_power:family = “tweedie”の場合のリンク関数のパワーを指定する数値。タイプ:実数、デフォルト:1
    • Prior:family = “binomial”の場合、応答のクラス1の事前確率を指定する数値。 (0,1)排他的範囲または-1(事前なし)でなければなりません。デフォルト値は、クラス1の観測頻度です。タイプ:realデフォルト:-1(事前なし)
    • beta_epsilon:連続する反復からの係数推定値間の最大差の大きさを指定する負でない数。収束基準を定義します。タイプ:実数、デフォルト:0.0001
    • Objective_EPSILON:収束のしきい値を指定します。客観的な値がこのしきい値よりも小さい場合、モデルは収束します。タイプ:実数、デフォルト:-1(しきい値なし)
    • gradient_epsilon:(L-BFGSのみ)収束の閾値を指定します。客観的な値(L無限大ノルムを使用)がこのしきい値よりも小さい場合、モデルは収束します。タイプ:実数、デフォルト:0.0001
    • max_active_predictors:計算中のアクティブな予測子の最大数を指定します。この値は、多くの予測子を使用した高価なモデルの作成を防ぐための停止基準として使用されます。タイプ:整数、デフォルト:-1(制限なし)
    • obj_reg:客観的な値の計算における尤度分割、タイプ:実数、デフォルト:1 / nobs
    • additional_alphas:追加のアルファを指定すると、検索がトリガーされます。アルファが未定義の場合は無視されます。
    • additional_lambdas:追加のラムダを提供すると、検索がトリガーされます。 lambdaが未定義の場合は無視されます。
    • nfolds:交差検定の折り畳みの数。 0を使用して、相互検証をオフにします。タイプ:整数、デフォルト:0

    範囲:列挙

チュートリアルプロセス

GLMを使用した分類

GLM演算子は、取引サンプルデータセットのFuture customer属性を予測するために使用されます。すべてのパラメーターは、GLMのデフォルト値に保持されます。これは、二項ラベルのために、Familyパラメーターが自動的に「binominal」に設定され、対応するLink関数が「logit」に設定されることを意味します。結果のモデルは、Deals_Testsetサンプルデータに一般化線形モデルを適用するモデルの適用演算子に接続されます。ラベルが付いたExampleSetは、精度メトリックを計算するパフォーマンス(二項分類)演算子に接続されています。プロセス出力では、パフォーマンスベクトル、一般化線形モデル、および出力ExampleSetが表示されます。

GLMを使用した回帰

GLM演算子は、Split Validation演算子を使用して、多項式サンプルデータセットのラベル属性を予測するために使用されます。ラベルは数値です。つまり、回帰が実行されます。 「p値の計算」パラメーターはtrueに設定され、複数のパラメーターを設定する必要があります。ラムダパラメーターは0.0(正則化なし)に設定され、共線列は削除され、ベータ制約は指定されません。 SolverパラメーターはAUTOに設定されます。これは、IRLSMソルバーが使用されることを意味します-これにより、P値の計算が可能になります。結果のモデルは、分割検証演算子のテストサブプロセスに適用されます。ラベルの付いたExampleSetは、二乗平均平方根誤差メトリックを計算するパフォーマンス(回帰分類)演算子に接続されています。プロセス出力には、パフォーマンスベクトルと一般化線形モデルが表示されます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル