データ処理結果の差異について
通常のnehanとHyper nehanでは、データを処理するエンジンが異なるため、結果が完全に一致しない場合があります。
もちろん、全く違うと大問題ですから、通常利用においては問題ないレベルの差異しか発生しないようにしています。
結果の行の並び順が一致しないケース
列でグルーピングする処理全てが対象です。
- データ集計
- クロス集計(横持ち変換)
- キー列を指定する結合
- 連番の追加(「グループ内で連番を振る」オプションを有効にした場合)
- 先頭/末尾からn行選択(「グループごとに処理」オプションを有効にした場合)
- 列or行方向の比率計算(「グループ内で比率を計算する」オプションを有効にした場合)
- 列or行方向の累積和(「グループ内で累積和を取る」オプションを有効にした場合)
- データを行方向にずらす(「グループ内で処理を実施」オプションを有効にした場合)
- 数値の正規化(「グループごとに処理」オプションを有効にした場合)
結果自体が完全に一致しないケース
ランダム性を持つ処理全てが対象です。
- ランダムにデータを分割
- シンプルなサンプリング
- 特徴量選択