ダミー変数を学ぶ
ダミー変数とは?
ダミー変数(またはワンホットエンコーディングとも呼ばれる)は、カテゴリ変数を数値データとして扱うための手法の一つです。
カテゴリ変数の各カテゴリを表す新しい列を作成し、そのカテゴリに属する場合は”1”、そうでない場合は”0”を割り当てることで、数値データとして扱うことができます。
なぜダミー変数が必要なのか?
多くの機械学習アルゴリズムは、数値データのみを入力として受け取ることができます。
そのため、カテゴリ変数(例: 性別や都市名など)をこれらのアルゴリズムで使用するためには、数値データに変換する必要があります。
ダミー変数は、この変換を行うための一般的な手法です。
実際のユースケース
元のデータ
性別 |
---|
男 |
女 |
女 |
ダミー変数に変換後
男 | 女 |
---|---|
1 | 0 |
0 | 1 |
0 | 1 |
上記の例では、“男”というカテゴリは新しい列として作成され、その値が”男”の場合は”1”、そうでない場合は”0”が割り当てられています。同様に、“女”というカテゴリも新しい列として作成されています。