列型
データ内の各列には必ず「型」が付与され、その列の性質を表現します。
型があることで、各列の状態を健全に保つことができます。
型の種類
データソース、分析プロジェクトにおける列の型を紹介します。
数値型
数値のみで構成される列に付与可能な型であり、数値演算が可能になります。
なお、小数点以下の値は下 6 桁まで表示され、それ以下は切り捨て表示されます。
数値型列には、下記のアイコンが付与されます。
文字列型
どんな値の列にも付与可能な型であり、列内の値を文字として扱うことで、文字列の結合や置換が可能です。
最も汎用性が高い型であり、全ての列は文字列型に変換が可能です。
文字列型列には、下記のアイコンが付与されます。
日付型
日付のみで構成される列に付与可能な型であり、「2022-01-01」のように、
- 4 桁の年
- 2 桁の月
- 2 桁の日
をハイフンで繋いだ形式で表記されます。
なお、nehan で扱える日付の範囲は 1677-09-21 ~ 2262-04-11 です。
日付型列には、下記のアイコンが付与されます。
時間型
時間を表す列に付与可能な型であり、「12:34:56」のように、
- 2 桁の時
- 2 桁の分
- 2 桁の秒
をコロンで繋いだ形式で表記されます。
また「秒」に関しては、小数点以下の値を含めることができ、例えば「12:34:56.789」のような表記も可能であり、小数点以下の値は下 6 桁まで表示され、それ以下は切り捨て表示されます。
なお、nehan で扱える時間の範囲は 00:00:00.000000 ~ 23:59:59.999999 です。
日付型列には、下記のアイコンが付与されます。
日付時間型
日付と時間の両方を含む列に付与可能な型であり、「2022-01-01 12:34:56」のように、日付型と時間方をスペースで繋いだ形式で表記されます。
なお、nehan で扱える日付時間の範囲は 1677-09-21 00:12:43 ~ 2262-04-11 23:47:16 です。
日付時間型列には、下記のアイコンが付与されます。
列型の自動付与
ユーザーが任意の型を付与せずとも、nehan では列の値に応じて自動で型が付与されます。
自動型付けはデータソースの読み込み時、および分析プロジェクト内でのデータ処理時に行われます。
自動型付け発生のタイミング
自動で列型が付与されるタイミングは、下記の通りです。
ファイル系データソース読み込み時
例えば、ファイルアップロードにて、CSV ファイルを読み込んだ場合、列の値に応じて自動で型が付与されます。
なお、型の自動付与は読み込み都度行われるため、型を固定したい場合は「型の指定」機能を利用してください。
分析プロジェクト内にて新規列を追加する際
データ処理機能利用時、新規列が追加される際、列の値に応じて自動で型が付与されます。
全欠損と型
データソース、分析プロジェクトにおいて、列の値が全て欠損値の場合、つまり全欠損の場合の挙動を紹介します。
新規で全欠損列が作成された場合
分析プロジェクト内で新規で列が作成され、その列が全欠損の場合、その列は文字列型として作成されます。
また、ファイル系データソースの読み込み時、全欠損の列は文字列型として作成されます。
ただし、型を指定して列を作成、データソースを読み込んだ場合、その型が優先されます。
既存の列が全欠損になった場合
分析プロジェクト内で行ったデータ処理の結果、既存の列が全欠損になった場合、その列は親ノードの列型を継承します。
例えば、分析プロジェクト内のノードに下記のデータがあると仮定します。
名前 | 性別 | 身長(数値型) |
---|---|---|
田中 | 男 | <NA> |
鈴木 | 女 | 160 |
佐藤 | 男 | <NA> |
このノードに対して「条件で行をフィルタ」ノードを接続し「性別列 = “男”」の条件を適用します。
結果、下記のデータが得られます。
名前 | 性別 | 身長(数値型) |
---|---|---|
田中 | 男 | <NA> |
佐藤 | 男 | <NA> |
「身長」列は処理の結果全欠損しましたが、親ノードの「身長」列の型が継承され、数値型となります。