主成分分析(PCA)
複数の数値列を指定した列数に変換し、元のデータよりも少ない列数で、データの情報を保持したまま圧縮する手法である主成分分析(PCA)を用いることができます。
また、圧縮後の列情報を解釈するための図である「バイプロット」を確認することもできます。
入出力定義
定義 | 内容 | 補足 |
---|---|---|
入力 | データ | |
左出力 | データ | 処理対象列を主成分に変換した結果を出力 |
中出力 | データ | 各成分の固有ベクトルを出力 |
右出力 | データ | 各成分の寄与率を出力 |
ボニートくん | バイプロット |
サンプル
主成分分析を用いて自動車のサイズからメーカーの特徴を比較する
- 車重_平均: この矢印の方向にあるメーカーは、平均して重い車を生産しています。逆に、この矢印から遠いメーカーは軽い車を生産しています。
- 車体の長さ_平均: この矢印に近いメーカーは、平均して長い車を作っていますが、遠いメーカーは短い車を作っています。
- 車体の幅_平均: メーカーがこの矢印に沿っている場合、彼らの車は平均して幅広いです。矢印から離れている場合、より狭い車を生産している傾向があります。
- ホイールベースの長さ_平均: このベクトルは、メーカーが近いほど平均してホイールベースが長いことを示しており、車内スペースの広さや車両の安定性に関連している可能性があります。
- 車体の高さ_平均: この矢印の方向にあるメーカーは、平均して高い車体を持つ車を生産しています。
バイプロットを見ると、以下のような特定メーカーについて推測することができます。
- メルセデス・ベンツ、BMW、ボルボなどのベクトルの方向に位置する企業は、平均して重くて長く、幅広いホイールベースが長く、車体が高い車を生産していると考えられます。
- 本田技研工業(ホンダ)、トヨタ自動車、フォルクスワーゲンなど、ベクトルの方向から遠い企業は、より軽く、短く、おそらくよりコンパクトな車を生産していると考えられます。
バイプロット上でのメーカーの相対的な位置によって、彼らが生産する車の一般的な特性を推測することができます。
例えば、あるメーカーが「車体の幅平均」のベクトルの端に近いが「車重平均」からは遠い場合、幅は広いが必ずしも重い車を生産していることを示唆しているかもしれません。