欠損値
セルに値が存在しない場合、つまり空白の場合、そのセルには欠損値が入ります。
欠損値は値がないことを意味する記号のようなものですが、これを無視して分析を進めると誤った結果を導くことになります。
逆に、欠損値の特性を理解しておくと、より効率的なデータ処理が可能になります。
表示
欠損値は<NA>
と表示されます。
ただし、ダッシュボードの公開ページ上では見やすさを重視し、欠損値は空白として表示されます。
分析プロジェクトにおけるデータ処理
分析プロジェクト内のデータ処理機能における、欠損値の扱いについて紹介します。
キー列に内の欠損値は一つの値として扱われる
例:データ集計
下記のデータを、「性別」ごとの人数を集計するとします。
名前 | 性別 |
---|---|
A | 男 |
B | 女 |
C | <NA> |
結果には、キー列である「性別」内の欠損値ごとの集計結果も含まれます。
性別 | 名前_カウント |
---|---|
男 | 1 |
女 | 1 |
<NA> | 1 |
例:キー列を指定する結合
下記の 2 つのデータを「名前」で共通部分を残す結合するとします。
名前 | 性別 |
---|---|
A | 男 |
B | 女 |
<NA> | 女 |
名前 | 年齢 |
---|---|
A | 20 |
B | 30 |
<NA> | 25 |
結果には、キー列である「名前」内の欠損値同士の結合結果も含まれます。
名前 | 性別 | 年齢 |
---|---|---|
A | 男 | 20 |
B | 女 | 30 |
<NA> | 女 | 25 |
演算対象列内の欠損値は無視される
例:データ集計
下記のデータを、「性別」ごとの平均年齢を集計するとします。
性別 | 年齢 |
---|---|
男 | 10 |
男 | 20 |
男 | <NA> |
結果には、欠損値を無視して(10+20)÷2
の計算結果が入ります。
性別 | 年齢_平均 |
---|---|
男 | 15 |
例:累積和
下記のデータの「売上」を列方向の上から下に累積和するとします。
日付 | 売上 |
---|---|
2023-01-01 | 100 |
2023-02-01 | <NA> |
2023-03-01 | 200 |
結果には、欠損値を無視した計算結果が入りますが、欠損値にも累積和が入ります。
日付 | 売上_累積和 |
---|---|
2023-01-01 | 100 |
2023-02-01 | 100 |
2023-03-01 | 300 |
文字としては空白として扱われる
例:文字列同士の結合
下記のデータの「名字」と「名前」を結合するとします。
名字 | 名前 |
---|---|
山田 | 太郎 |
山田 | 花子 |
田中 | <NA> |
結果には、欠損値を空白として扱われた結果が入ります。
名字 | 名前 | 名字_名前 |
---|---|---|
山田 | 太郎 | 山田 太郎 |
山田 | 花子 | 山田 花子 |
田中 | <NA> | 田中 |
並べ替えにおいては最後に並べられる
例:表の並べ替え
下記のデータを「user_id」で降順に並べ替えるとします。
user_id | 名前 |
---|---|
1 | A |
2 | B |
<NA> | C |
結果には、欠損値が最後に並べられた結果が入ります。
user_id | 名前 |
---|---|
2 | B |
1 | A |
<NA> | C |
SQL ビルダーにおけるデータ処理
各データベースサービスにおける欠損値の仕様に従います。