Skip to content

テキストから特徴量抽出

この機能は、テキストデータから特徴量を抽出するものです。
テキストデータを数値データに変換し、機械学習モデルの入力として利用できるようにします。
抽出された特徴量は、元のデータに新しい列として追加されます。
文書分類、トピックモデリング、感情分析などの自然言語処理タスクに適用されます。


入出力定義

定義内容
入力データ
出力データ

サンプル

テキストから特徴量抽出


仕様補足

Bag of Words

Bag of Wordsは、テキストを単語の出現回数によるベクトルに変換する手法です。
文章を構成する単語それぞれの出現回数をカウントし、単語の出現頻度を特徴量として利用します。
この方法では、テキストの語順は考慮されず、単に単語が出現したかどうかのみを数値化します。
一般的に文書分類やトピックモデルなどのテキスト解析に使用されますが、単語の意味や文脈は捉えられません。

TF-IDF

TF-IDFは、各単語の「重要度」を表すための重み付けを行う手法です。
TF(Term Frequency)は特定の単語が文書内にどれだけ頻繁に出現するかを示し、IDF(Inverse Document Frequency)はその単語がどれだけ珍しいか(他の文書に出現しないか)を示します。
TF-IDFはこれらの二つを掛け合わせたもので、単語が文書集合全体の中でどれだけ特徴的かを数値化します。
TF-IDFはBoWよりも文書内で重要な単語を強調することができるため、文書内の重要な単語を抽出する際に有用です。