Skip to content

LDA

この機能は、テキストデータからトピックモデリングを行うものです。
LDA(Latent Dirichlet Allocation)を使用して、文書集合から複数のトピックを抽出します。
ユーザーは、トピックの数や特徴ベクトルの種類(Bag of Words や TF-IDF)を指定することができます。
各文書がどのトピックに関連しているか、および各トピックにどの単語が含まれているかが分析されます。
出力には以下が含まれます。

  • 各文書について、最も確率が高いトピックとその確率。
  • トピックごとに、そのトピックを構成する単語とその単語がトピックに属する確率。

この機能は、顧客のレビューやフィードバックなどのテキストデータの隠れたテーマを発見する際に有用です。


入出力定義

定義内容補足
入力データ
左出力データ所属トピック番号が入ったデータを出力
右出力データトピックごとに特徴的な単語を出力

サンプル

LDAによる文書のトピック分け