Skip to content

ダミー変数を学ぶ

ダミー変数とは?

ダミー変数(またはワンホットエンコーディングとも呼ばれる)は、カテゴリ変数を数値データとして扱うための手法の一つです。
カテゴリ変数の各カテゴリを表す新しい列を作成し、そのカテゴリに属する場合は1、そうでない場合は0を割り当てることで、数値データとして扱うことができます。


なぜダミー変数が必要なのか?

多くの機械学習アルゴリズムは、数値データのみを入力として受け取ることができます。
そのため、カテゴリ変数(例: 性別や都市名など)をこれらのアルゴリズムで使用するためには、数値データに変換する必要があります。
ダミー変数は、この変換を行うための一般的な手法です。


実際のユースケース

元のデータ

性別

ダミー変数に変換後

10
01
01

上記の例では、というカテゴリは新しい列として作成され、その値がの場合は1、そうでない場合は0が割り当てられています。同様に、というカテゴリも新しい列として作成されています。