LDA
この機能は、テキストデータからトピックモデリングを行うものです。
LDA(Latent Dirichlet Allocation)を使用して、文書集合から複数のトピックを抽出します。
ユーザーは、トピックの数や特徴ベクトルの種類(Bag of Words や TF-IDF)を指定することができます。
各文書がどのトピックに関連しているか、および各トピックにどの単語が含まれているかが分析されます。
出力には以下が含まれます。
- 各文書について、最も確率が高いトピックとその確率。
- トピックごとに、そのトピックを構成する単語とその単語がトピックに属する確率。
この機能は、顧客のレビューやフィードバックなどのテキストデータの隠れたテーマを発見する際に有用です。
入出力定義
定義 | 内容 | 補足 |
---|---|---|
入力 | データ | |
左出力 | データ | 所属トピック番号が入ったデータを出力 |
右出力 | データ | トピックごとに特徴的な単語を出力 |