Skip to content

ダミー変数を学ぶ

ダミー変数とは?

ダミー変数(またはワンホットエンコーディングとも呼ばれる)は、カテゴリ変数を数値データとして扱うための手法の一つです。
カテゴリ変数の各カテゴリを表す新しい列を作成し、そのカテゴリに属する場合は”1”、そうでない場合は”0”を割り当てることで、数値データとして扱うことができます。


なぜダミー変数が必要なのか?

多くの機械学習アルゴリズムは、数値データのみを入力として受け取ることができます。
そのため、カテゴリ変数(例: 性別や都市名など)をこれらのアルゴリズムで使用するためには、数値データに変換する必要があります。
ダミー変数は、この変換を行うための一般的な手法です。


実際のユースケース

元のデータ

性別

ダミー変数に変換後

10
01
01

上記の例では、“男”というカテゴリは新しい列として作成され、その値が”男”の場合は”1”、そうでない場合は”0”が割り当てられています。同様に、“女”というカテゴリも新しい列として作成されています。