ファイル系

ファイル系データソースにおける共通するオプションや操作を紹介します。

列名変更

データソースページで列の名前を変更できます。

1 列ずつ変更

データソースを読み込んだ後、各列のメニューから変更し、再度読み込むことでデータソースに反映されます。

一括変更

データソースを読み込んだ後、「列の名前をまとめて変更」から一括変更し、再度読み込むことでデータソースに反映されます。

列型変更

データソースページで列のデータ型を変更できます。

1 列ずつ変更

データソースを読み込んだ後、各列のメニューから変更し、再度読み込むことでデータソースに反映されます。

一括変更

データソースを読み込んだ後、「列の型をまとめて変更」から一括変更し、再度読み込むことでデータソースに反映されます。

列名、列型変更時の列ステータス

ユーザーが列名や列型を変更すると、列名の色が変化し、その状態を把握することができます。

初期状態

データを読み込んだ初期状態では、列名の色は白です。

変更セット状態

列名、列型の変更を行うと、列名の色がオレンジに変化します。
この状態では、データソースに変更が反映されていないことを表しています。

反映済み状態

列名、列型の変更を行い、読み込み操作でデータソースに反映されると、列名の色が緑に変化します。

対応ファイル拡張子

下記の拡張子が読み込み可能です。

対応拡張子	ファイルタイプ
`.csv` `.tsv` `.txt` `.whd`	`csv/tsv/text`
`.xlsx` `.xls`	`excel`
`.json`	`json`
.parquet	`parquet`

データ読み込みの仕様

列名付与の仕組み

初期状態では、ファイルの先頭 1 行目が自動的にデータの列名になります。

列型付与の仕組み

初期状態では、列内のデータに応じて自動で列型を付与します。

データ読み込みの仕様(複数ファイル)

複数ファイルを一括で読み込んだ場合、各ファイルのデータは自動で縦結合され、1 データとしてデータソース化できます。

フォルダ、ディレクトリの扱い

読み込み対象がフォルダ、ディレクトリであっても、全てのファイルを探索し、読み込み対象とします。

列名付与の仕組み

各ファイルの先頭 1 行目が自動的にデータの列名になります。
共通する列名は自動的に 1 列に統合されます。

例

file1.csv

名前	身長
A	150
B	160

file2.csv

名前	身長
C	170
D	180

↓

2 ファイルを一括アップロードしデータソース化

名前	身長
A	150
B	160
C	170
D	180

ファイル間で列名が異なる場合

共通しない列名は独立した 1 列として読み込まれます。

例

file1.csv

名前	身長
A	150
B	160

file2.csv

名前	体重
C	50
D	60

↓

2 ファイルを一括アップロードしデータソース化

名前	身長	体重
A	150	`<NA>`
B	160	`<NA>`
C	`<NA>`	50
D	`<NA>`	60

列型付与の仕組み

複数ファイル間で共通する列名が 1 列に統合される際、ファイル間で列型が異なる場合、強制的に文字列型に変換されます。

file1.csv

名前	身長(数値型)
A	150
B	160

file2.csv

名前	身長(文字列型)
C	不明
D	不明

↓

2 ファイルを一括アップロードしデータソース化
※列:“身長”は複数の型が混在するため、文字列型として読み込まれます。

名前	身長(文字列型)
A	150
B	160
C	不明
D	不明

読み込みオプション

読み込みオプションでファイルタイプ固有の設定を行います。
これらの設定は読み込みを行うことでデータソースに反映されます。
※Google スプレッドシート以外のデータタイプで利用可能

初回読み込み時の自動推定

初回読み込み時のみ、読み込みオプションは自動で推定されセットされます。

オプション一覧

読み込むファイルのタイプを指定できます。

csv/txv/text
excel
json

それぞれに固有の設定が用意されています。

オプション名	対応ファイルタイプ
区切り文字	`csv/txv/text`
文字コード	`csv/txv/text`, `json`
圧縮形式	`csv/txv/text`, `json`
シート番号	`excel`

区切り文字

ファイル内のセルを区切る文字を指定します。

例

区切り文字=”,“のファイル例

名前,身長,体重
A,170,60
B,160,50

区切り文字=“\t”のファイル例

名前\t身長\t体重
A\t170\t60
B\t160\t50

文字コード

ファイル固有の文字コードを指定します。
正しい文字コードを指定しないと、読み込みエラーや文字化けが発生する可能性があります。

文字コード	nehan に入力する文字	補足
UTF-8	utf8
Shift-JIS	cp932	エクセルファイルを csv に変換したものを読み込む際などに利用
EUC-JP	euc-jp

ファイルの圧縮タイプ

圧縮されたファイルを読み込む場合、圧縮タイプの指定が必要です。

選択メニュー	補足
拡張子から自動判別
なし	圧縮されていない場合はこちらを選択
zip	拡張子が”.zip”の際に指定
gzip	拡張子が”.gzip”の際に指定
bz2	拡張子が”.bz2”の際に指定

データ調整オプション

データ調整オプションで、読み込むデータの範囲などを指定します。
これらの設定は読み込みを実行することでデータソースに反映されます。

オプション一覧

オプション名	対応ファイルタイプ
読み込む列を指定する	`csv/txv/text`, `excel`, `parquet`
行数を先頭からスキップする	`csv/txv/text`, `excel`
読み込む行数を指定する	`csv/txv/text`, `excel`
1 行目をヘッダとして扱う	`csv/txv/text`, `excel`
列にファイル名を追加する	`csv/txv/text`, `excel`, `json`, `parquet`
列にフォルダ名を追加する	`csv/txv/text`, `excel`, `json`, `parquet`
データの中に改行が含まれる	`csv/txv/text`, `excel`

読み込む列を指定する

必要な列のみをデータソース化することができます。列番号で指定可能です。

列番号で指定する

カンマ区切りで複数指定、およびハイフン指定で範囲指定が可能です。

入力例	読み込める列
`1`	左から 1 列目
`1,2,10`	左から 1,2,10 列目
`3-5`	左から 3,4,5 列目
`1,3-5`	左から 1,3,4,5 列目

列名で指定する

カンマ区切りで複数指定が可能です。

入力例	読み込める列名
`名前`	“名前”
`名前,身長`	“名前”,“身長”

先頭から行数をスキップし以降を読み込む

ファイル内でデータが 1 行目ではなく、n 行目から開始している場合、不要な行を読み込まないようにできます。

例

データ.xlsx

xx レポート	更新日	2022-02-01
日付	売上	購入者
2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30

↓ 1 行をスキップし読み込む

日付	売上	購入者
2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30

複数ファイルアップロード時の挙動

各ファイルに対して行スキップを行った後、一つのデータソースに縦結合します。

読み込む行数を指定する

データ下部に不要な行がある場合、先頭から n 行だけ読み込むことができます。

例

データ.xlsx

日付	売上	購入者
2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30
合計	600000	60

↓

先頭から 4 行を読み込む

日付	売上	購入者
2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30

オプションの併用

「先頭から行数をスキップし以降を読み込む」オプションを併用する場合、行数をスキップした上で読み込む行数を指定する必要があります。
つまり、ファイル内データの 11~20 行目のみをデータソース化したい場合、

先頭からスキップする行数 = 10
読み込む行数 = 10

を指定します。

複数ファイルアップロード時の挙動

各ファイルに対して先頭から n 行を選択した後、一つのデータソースに縦結合します。

1 行目を列名として扱う

アップロードしたファイルの 1 行目を列名として扱い、初期状態で on になっています。
もし 1 行目が列名に対応するデータではない場合、このオプションを off にしてください。

例

データ.xlsx

2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30
合計	600000	60

↓

1 行目を列名として扱わない場合、列名が自動補完される

列 1	列 2	列 3
2022-01-01	100000	10
2022-01-02	200000	20
2022-01-03	300000	30

複数ファイルアップロード時の挙動

オプションを off にした場合、下記の処理を行います。

各ファイルに対して列名を自動補完する
各ファイルの共通列名を縦結合し、1 つのデータソースにする

このため、列の並び順がファイル間で異なる場合、意図しないデータソースができてしまう点に注意してください。

列にファイル名を追加する

データソースのどの行が、どのファイルのものだったかを判別できます。

例

データ 1.csv

日付	売上	購入者
2022-01-01	100000	10

データ 2.csv

日付	売上	購入者
2022-01-02	200000	20
2022-01-03	300000	30

↓

列にファイル名を追加する

日付	売上	購入者	ファイル名
2022-01-01	100000	10	データ 1
2022-01-02	200000	20	データ 2
2022-01-03	300000	30	データ 2

列にフォルダ名を追加する

データソースのどの行が、どのフォルダ内のものだったかを判別できます。

例

フォルダ2022-01内ファイル01.csv

日付	売上	購入者
2022-01-01	100000	10

フォルダ2022-02内ファイル01.csv

日付	売上	購入者
2022-02-01	100000	10

↓

列にフォルダ名を追加する

日付	売上	購入者	フォルダ名
2022-01-01	100000	10	2022-01
2022-01-01	100000	10	2022-02

データの中に改行が含まれる

このオプションは Hyper nehan プラン適用環境のみ有効なオプションです。
かつ、Hyper 読み込み時のみ有効です。

例

データ.csv

社名	住所
株式会社 A	〒 100-1000 東京都渋谷区
…	…

もしオプションが OFF のままだと行がずれて読み込まれ、間違ったデータソースができてしまう

社名	住所
株式会社 A	〒 100-1000
東京都渋谷区	`<NA>`
…	…

↓

オプションを on にすることで正しく読み込める

社名	住所
株式会社 A	〒 100-1000 東京都渋谷区
…	…