数値の正規化

この機能は、データを様々な方法で正規化し、分析や機械学習モデルの入力に適した形に変換します。
データを一定の範囲内に収める「最小最大正規化」、データの平均を 0、標準偏差を 1 にする「標準化」、各要素をその列の合計で割る「比率化」などの処理を行えます。
また、「L1 正規化」と「L2 正規化」を用いて、データのスケールを変更し、モデルの予測性能を向上させることが可能です。
各列の偏差値を計算することもでき、これによりデータの相対的な位置を評価することができます。
これらの処理は、グループごとに分けて行うこともでき、より細かいデータの分析が可能になります。
オプションで元のデータを削除し、新しい正規化されたデータのみを保持することもできます。

入出力定義

定義	内容
入力	データ
出力	データ

サンプル

偏差値として正規化する

グループの中で正規化する

仕様補足

標準化

データの平均を 0、標準偏差を 1 とすることで、異なるスケールのデータを共通の尺度に変換します。
これにより、外れ値の影響を受けにくくなり、多くの機械学習アルゴリズムでの性能向上が期待できます。

MinMax

データを 0 から 1 の範囲にスケーリングする正規化方法です。
既定の範囲は 0 から 1 ですが、この範囲は変更可能で、データの相対的な大小関係は保持しながらも一定の範囲内に収めることができます。

L1 正規化

各列の要素の合計が 1 になるようにスケーリングします。
これは特に、データ内の個々の特徴が独立していて、スパースなデータセットで有用です。

L2 正規化

各列の要素の二乗和が 1 になるようにスケーリングします。
これはデータのノルム(大きさや長さ)を一定に保ちたい場合に用いられます。

列 or 行方向の比率を計算

各要素をその列(または行)の合計で割り、データの全体に対するその要素の割合を計算します。
これにより、全体に占める各部分の相対的な重要性を評価することが可能になります。

偏差値を計算

データの各要素が全体の中でどの位置にあるのかを示す偏差値を計算します。
平均を 50、標準偏差を 10 とすることで、データの相対的な位置を評価することができます。