RapidMiner(ラピッドマイナー)はデータ可視化、データ加工、モデル作成、評価、運用まで一括サポートする機械学習プラットフォームです。KSKアナリティクスはRapidMinerの正規販売代理店です。

Generate TFIDF

概要

この演算子は、指定されたExampleSetのTF-IDFフィルタリングを実行します。 TF-IDFは、ドキュメントにとって単語の重要性を反映する数値統計です。

詳細

Generate TFIDF演算子は、指定されたExampleSetからTF-IDF値を生成します。ExampleSetには、バイナリオカレンス(用語頻度TFの計算中に正規化されます)が含まれているか、計算された用語頻度値が既に含まれている必要があります(この場合は正規化なし)するつもり)。この動作は、 用語頻度計算パラメータを使用して選択できます。

TF-IDF(用語頻度-逆文書頻度)は、コレクションまたはコーパス内の文書にとって単語がどれほど重要であるかを反映する数値統計です。多くの場合、情報検索およびテキストマイニングの重み係数として使用されます。 tf-idfの値は、ドキュメントに単語が出現する回数に比例して増加しますが、コーパス内の単語の頻度によって相殺されます。これにより、一般的に他の単語よりも一般的な単語を制御できます。

入力

  • サンプル入力 (IOObject)この入力ポートには、ExampleSetが必要です。これは、添付のプロセス例のCSV読み取り演算子の出力です。

出力

  • 設定出力の例(IOObject)TF-IDFが計算され、結果のExampleSetがこのポートを介して返されます。
  • オリジナル(IOObject)入力として指定されたExampleSetは、このポートを介して出力に変更せずに渡されます。これは通常、別の演算子で同じExampleSetを再利用するため、または結果ワークスペースでExampleSetを表示するために使用されます。

パラメーター

  • calculate_term_frequenciesこのパラメーターは、期間頻度値を生成する必要があるかどうかを示します。入力データが単純な出現回数として与えられる場合、このパラメーターはtrueに設定する必要があります。 範囲:ブール

チュートリアルプロセス

Generate TFIDFオペレーターの概要

このサンプルプロセスは、サンプルExampleSetを生成するSubprocessesオペレーターで始まります。 ExampleSetを見ることができるように、ブレークポイントがここに挿入されます。これは非常にシンプルなExampleSetです。異なる単語を持つテキスト属性があります。 Doc1、Doc2、およびDoc3という名前の3つの整数属性があり、これらの文書内の対応する単語のカウントがあります。 TFIDFを計算するには、Generate TFIDF演算子がこのExampleSetに適用されます。結果のExampleSetは、結果ワークスペースで確認できます。

API認証に失敗しました メールまたはパスワードが正しくありません メールアドレスは必須です パスワードは必須です
キャンセル