欠損値
欠損値とは、エクセルで言う空、データベースでいうnull、つまり、データが入っていないセルは<NA>で表現され、これを欠損値と呼びます。
この<NA>は文字ではなく、例えば文字列置換で”<NA>”という文字を置換しようとしても、できません。
欠損値を含むデータを対象にした処理の挙動をパターン別に紹介します。
グループキー列・結合キー列に欠損値が入っているパターン
欠損値を一つの値として、処理します。
結合の場合は、左右データのキー列内の欠損値同士を結合します。
何かしらの演算を行う列に欠損値が入っているパターン
デフォルト、欠損値を無視して演算します。
データ集計・クロス集計・比率計算、累積、の機能には、事前に欠損値を0で埋めるオプションを付与しています。
機械学習を行うパターン
欠損値を事前に補完・削除しておかないと、エラーを出します。