Skip to content

欠損値

セルに値が存在しない場合、つまり空白の場合、そのセルには欠損値が入ります。
欠損値は値がないことを意味する記号のようなものですが、これを無視して分析を進めると誤った結果を導くことになります。
逆に、欠損値の特性を理解しておくと、より効率的なデータ処理が可能になります。


表示

欠損値は<NA>と表示されます。
ただし、ダッシュボードの公開ページ上では見やすさを重視し、欠損値は空白として表示されます。


分析プロジェクトにおけるデータ処理

分析プロジェクト内のデータ処理機能における、欠損値の扱いについて紹介します。

キー列に内の欠損値は一つの値として扱われる

例:データ集計

下記のデータを、「性別」ごとの人数を集計するとします。

名前性別
A
B
C<NA>

結果には、キー列である「性別」内の欠損値ごとの集計結果も含まれます。

性別名前_カウント
1
1
<NA>1

例:キー列を指定する結合

下記の 2 つのデータを「名前」で共通部分を残す結合するとします。

名前性別
A
B
<NA>
名前年齢
A20
B30
<NA>25

結果には、キー列である「名前」内の欠損値同士の結合結果も含まれます。

名前性別年齢
A20
B30
<NA>25

演算対象列内の欠損値は無視される

例:データ集計

下記のデータを、「性別」ごとの平均年齢を集計するとします。

性別年齢
10
20
<NA>

結果には、欠損値を無視して(10+20)÷2の計算結果が入ります。

性別年齢_平均
15

例:累積和

下記のデータの「売上」を列方向の上から下に累積和するとします。

日付売上
2023-01-01100
2023-02-01<NA>
2023-03-01200

結果には、欠損値を無視した計算結果が入りますが、欠損値にも累積和が入ります。

日付売上_累積和
2023-01-01100
2023-02-01100
2023-03-01300

文字としては空白として扱われる

例:文字列同士の結合

下記のデータの「名字」と「名前」を結合するとします。

名字名前
山田太郎
山田花子
田中<NA>

結果には、欠損値を空白として扱われた結果が入ります。

名字名前名字_名前
山田太郎山田 太郎
山田花子山田 花子
田中<NA>田中

並べ替えにおいては最後に並べられる

例:表の並べ替え

下記のデータを「user_id」で降順に並べ替えるとします。

user_id名前
1A
2B
<NA>C

結果には、欠損値が最後に並べられた結果が入ります。

user_id名前
2B
1A
<NA>C

SQL ビルダーにおけるデータ処理

各データベースサービスにおける欠損値の仕様に従います。