欠損値の仕様
セルに値が存在しない場合、つまり空白の場合、そのセルには欠損値が入ります。
欠損値は値がないことを意味する記号のようなものですが、これを無視して分析を進めると誤った結果を導くことになります。
逆に、欠損値の特性を理解しておくと、より効率的なデータ処理が可能になります。
表示
欠損値は<NA>と表示されます。
ただし、ダッシュボードの公開ページ上では見やすさを重視し、欠損値は空白として表示されます。
分析プロジェクトにおける欠損値
分析プロジェクト内のデータ処理機能における、欠損値の扱いについて説明します。
キー列内の欠損値は一つの値として扱われる
例: データ集計
下記のデータを、性別ごとの人数を集計するとします。
| 名前 | 性別 |
|---|---|
| A | 男 |
| B | 女 |
| C | <NA> |
結果には、キー列である性別内の欠損値ごとの集計結果も含まれます。
| 性別 | 名前_カウント |
|---|---|
| 男 | 1 |
| 女 | 1 |
<NA> | 1 |
例: キー列を指定する結合
下記の 2 つのデータを名前で共通部分を残す結合するとします。
| 名前 | 性別 |
|---|---|
| A | 男 |
| B | 女 |
<NA> | 女 |
| 名前 | 年齢 |
|---|---|
| A | 20 |
| B | 30 |
<NA> | 25 |
結果には、キー列である名前内の欠損値同士の結合結果も含まれます。
| 名前 | 性別 | 年齢 |
|---|---|---|
| A | 男 | 20 |
| B | 女 | 30 |
<NA> | 女 | 25 |
演算対象列内の欠損値は無視される
例: データ集計
下記のデータを、性別ごとの平均年齢を集計するとします。
| 性別 | 年齢 |
|---|---|
| 男 | 10 |
| 男 | 20 |
| 男 | <NA> |
結果には、欠損値を無視して(10+20)÷2 の計算結果が入ります。
| 性別 | 年齢_平均 |
|---|---|
| 男 | 15 |
例:累積和
下記のデータの売上を列方向の上から下に累積和するとします。
| 日付 | 売上 |
|---|---|
| 2023-01-01 | 100 |
| 2023-02-01 | <NA> |
| 2023-03-01 | 200 |
結果には、欠損値を無視した計算結果が入りますが、欠損値にも累積和が入ります。
| 日付 | 売上_累積和 |
|---|---|
| 2023-01-01 | 100 |
| 2023-02-01 | 100 |
| 2023-03-01 | 300 |
文字としては空白として扱われる
例:文字列同士の結合
下記のデータの名字と名前を結合するとします。
| 名字 | 名前 |
|---|---|
| 山田 | 太郎 |
| 山田 | 花子 |
| 田中 | <NA> |
結果には、欠損値を空白として扱われた結果が入ります。
| 名字 | 名前 | 名字_名前 |
|---|---|---|
| 山田 | 太郎 | 山田 太郎 |
| 山田 | 花子 | 山田 花子 |
| 田中 | <NA> | 田中 |
並べ替えにおいては最後に並べられる
例:表の並べ替え
下記のデータをuser_idで降順に並べ替えるとします。
| user_id | 名前 |
|---|---|
| 1 | A |
| 2 | B |
<NA> | C |
結果には、欠損値が最後に並べられた結果が入ります。
| user_id | 名前 |
|---|---|
| 2 | B |
| 1 | A |
<NA> | C |
SQL ビルダーにおける欠損値
各データベースサービスにおける欠損値の仕様に従います。