ファイル系
ファイル系データソースにおける共通するオプションや操作を紹介します。
列名変更
データソースページで列の名前を変更できます。
1 列ずつ変更
データソースを読み込んだ後、各列のメニューから変更し、再度読み込むことでデータソースに反映されます。
一括変更
データソースを読み込んだ後、「列の名前をまとめて変更」から一括変更し、再度読み込むことでデータソースに反映されます。
列型変更
データソースページで列のデータ型を変更できます。
1 列ずつ変更
データソースを読み込んだ後、各列のメニューから変更し、再度読み込むことでデータソースに反映されます。
一括変更
データソースを読み込んだ後、「列の型をまとめて変更」から一括変更し、再度読み込むことでデータソースに反映されます。
列名、列型変更時の列ステータス
ユーザーが列名や列型を変更すると、列名の色が変化し、その状態を把握することができます。
初期状態
データを読み込んだ初期状態では、列名の色は白です。
変更セット状態
列名、列型の変更を行うと、列名の色がオレンジに変化します。
この状態では、データソースに変更が反映されていないことを表しています。
反映済み状態
列名、列型の変更を行い、読み込み操作でデータソースに反映されると、列名の色が緑に変化します。
対応ファイル拡張子
下記の拡張子が読み込み可能です。
対応拡張子 | ファイルタイプ |
---|---|
.csv .tsv .txt .whd | csv/tsv/text |
.xlsx .xls | excel |
.json | json |
.parquet | parquet |
データ読み込みの仕様
列名付与の仕組み
初期状態では、ファイルの先頭 1 行目が自動的にデータの列名になります。
列型付与の仕組み
初期状態では、列内のデータに応じて自動で列型を付与します。
データ読み込みの仕様(複数ファイル)
複数ファイルを一括で読み込んだ場合、各ファイルのデータは自動で縦結合され、1 データとしてデータソース化できます。
フォルダ、ディレクトリの扱い
読み込み対象がフォルダ、ディレクトリであっても、全てのファイルを探索し、読み込み対象とします。
列名付与の仕組み
各ファイルの先頭 1 行目が自動的にデータの列名になります。
共通する列名は自動的に 1 列に統合されます。
例
file1.csv
名前 | 身長 |
---|---|
A | 150 |
B | 160 |
file2.csv
名前 | 身長 |
---|---|
C | 170 |
D | 180 |
↓
2 ファイルを一括アップロードしデータソース化
名前 | 身長 |
---|---|
A | 150 |
B | 160 |
C | 170 |
D | 180 |
ファイル間で列名が異なる場合
共通しない列名は独立した 1 列として読み込まれます。
例
file1.csv
名前 | 身長 |
---|---|
A | 150 |
B | 160 |
file2.csv
名前 | 体重 |
---|---|
C | 50 |
D | 60 |
↓
2 ファイルを一括アップロードしデータソース化
名前 | 身長 | 体重 |
---|---|---|
A | 150 | <NA> |
B | 160 | <NA> |
C | <NA> | 50 |
D | <NA> | 60 |
列型付与の仕組み
複数ファイル間で共通する列名が 1 列に統合される際、ファイル間で列型が異なる場合、強制的に文字列型に変換されます。
file1.csv
名前 | 身長(数値型) |
---|---|
A | 150 |
B | 160 |
file2.csv
名前 | 身長(文字列型) |
---|---|
C | 不明 |
D | 不明 |
↓
2 ファイルを一括アップロードしデータソース化
※列:“身長”は複数の型が混在するため、文字列型として読み込まれます。
名前 | 身長(文字列型) |
---|---|
A | 150 |
B | 160 |
C | 不明 |
D | 不明 |
読み込みオプション
読み込みオプションでファイルタイプ固有の設定を行います。
これらの設定は読み込みを行うことでデータソースに反映されます。
※Google スプレッドシート以外のデータタイプで利用可能
初回読み込み時の自動推定
初回読み込み時のみ、読み込みオプションは自動で推定されセットされます。
オプション一覧
読み込むファイルのタイプを指定できます。
- csv/txv/text
- excel
- json
それぞれに固有の設定が用意されています。
オプション名 | 対応ファイルタイプ |
---|---|
区切り文字 | csv/txv/text |
文字コード | csv/txv/text , json |
圧縮形式 | csv/txv/text , json |
シート番号 | excel |
区切り文字
ファイル内のセルを区切る文字を指定します。
例
区切り文字=”,“のファイル例
区切り文字=“\t”のファイル例
文字コード
ファイル固有の文字コードを指定します。
正しい文字コードを指定しないと、読み込みエラーや文字化けが発生する可能性があります。
文字コード | nehan に入力する文字 | 補足 |
---|---|---|
UTF-8 | utf8 | |
Shift-JIS | cp932 | エクセルファイルを csv に変換したものを読み込む際などに利用 |
EUC-JP | euc-jp |
ファイルの圧縮タイプ
圧縮されたファイルを読み込む場合、圧縮タイプの指定が必要です。
選択メニュー | 補足 |
---|---|
拡張子から自動判別 | |
なし | 圧縮されていない場合はこちらを選択 |
zip | 拡張子が”.zip”の際に指定 |
gzip | 拡張子が”.gzip”の際に指定 |
bz2 | 拡張子が”.bz2”の際に指定 |
データ調整オプション
データ調整オプションで、読み込むデータの範囲などを指定します。
これらの設定は読み込みを実行することでデータソースに反映されます。
オプション一覧
オプション名 | 対応ファイルタイプ |
---|---|
読み込む列を指定する | csv/txv/text , excel , parquet |
行数を先頭からスキップする | csv/txv/text , excel |
読み込む行数を指定する | csv/txv/text , excel |
1 行目をヘッダとして扱う | csv/txv/text , excel |
列にファイル名を追加する | csv/txv/text , excel , json , parquet |
列にフォルダ名を追加する | csv/txv/text , excel , json , parquet |
データの中に改行が含まれる | csv/txv/text , excel |
読み込む列を指定する
必要な列のみをデータソース化することができます。列番号で指定可能です。
列番号で指定する
カンマ区切りで複数指定、およびハイフン指定で範囲指定が可能です。
入力例 | 読み込める列 |
---|---|
1 | 左から 1 列目 |
1,2,10 | 左から 1,2,10 列目 |
3-5 | 左から 3,4,5 列目 |
1,3-5 | 左から 1,3,4,5 列目 |
列名で指定する
カンマ区切りで複数指定が可能です。
入力例 | 読み込める列名 |
---|---|
名前 | ”名前” |
名前,身長 | ”名前”,“身長” |
先頭から行数をスキップし以降を読み込む
ファイル内でデータが 1 行目ではなく、n 行目から開始している場合、不要な行を読み込まないようにできます。
例
データ.xlsx
xx レポート | 更新日 | 2022-02-01 |
---|---|---|
日付 | 売上 | 購入者 |
2022-01-01 | 100000 | 10 |
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
↓ 1 行をスキップし読み込む
日付 | 売上 | 購入者 |
---|---|---|
2022-01-01 | 100000 | 10 |
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
複数ファイルアップロード時の挙動
各ファイルに対して行スキップを行った後、一つのデータソースに縦結合します。
読み込む行数を指定する
データ下部に不要な行がある場合、先頭から n 行だけ読み込むことができます。
例
データ.xlsx
日付 | 売上 | 購入者 |
---|---|---|
2022-01-01 | 100000 | 10 |
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
合計 | 600000 | 60 |
↓
先頭から 4 行を読み込む
日付 | 売上 | 購入者 |
---|---|---|
2022-01-01 | 100000 | 10 |
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
オプションの併用
「先頭から行数をスキップし以降を読み込む」オプションを併用する場合、行数をスキップした上で読み込む行数を指定する必要があります。
つまり、ファイル内データの 11~20 行目のみをデータソース化したい場合、
- 先頭からスキップする行数 = 10
- 読み込む行数 = 10
を指定します。
複数ファイルアップロード時の挙動
各ファイルに対して先頭から n 行を選択した後、一つのデータソースに縦結合します。
1 行目を列名として扱う
アップロードしたファイルの 1 行目を列名として扱い、初期状態で on になっています。
もし 1 行目が列名に対応するデータではない場合、このオプションを off にしてください。
例
データ.xlsx
2022-01-01 | 100000 | 10 |
---|---|---|
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
合計 | 600000 | 60 |
↓
1 行目を列名として扱わない場合、列名が自動補完される
列 1 | 列 2 | 列 3 |
---|---|---|
2022-01-01 | 100000 | 10 |
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
複数ファイルアップロード時の挙動
オプションを off にした場合、下記の処理を行います。
- 各ファイルに対して列名を自動補完する
- 各ファイルの共通列名を縦結合し、1 つのデータソースにする
このため、列の並び順がファイル間で異なる場合、意図しないデータソースができてしまう点に注意してください。
列にファイル名を追加する
データソースのどの行が、どのファイルのものだったかを判別できます。
例
データ 1.csv
日付 | 売上 | 購入者 |
---|---|---|
2022-01-01 | 100000 | 10 |
データ 2.csv
日付 | 売上 | 購入者 |
---|---|---|
2022-01-02 | 200000 | 20 |
2022-01-03 | 300000 | 30 |
↓
列にファイル名を追加する
日付 | 売上 | 購入者 | ファイル名 |
---|---|---|---|
2022-01-01 | 100000 | 10 | データ 1 |
2022-01-02 | 200000 | 20 | データ 2 |
2022-01-03 | 300000 | 30 | データ 2 |
列にフォルダ名を追加する
データソースのどの行が、どのフォルダ内のものだったかを判別できます。
例
フォルダ2022-01
内ファイル01.csv
日付 | 売上 | 購入者 |
---|---|---|
2022-01-01 | 100000 | 10 |
フォルダ2022-02
内ファイル01.csv
日付 | 売上 | 購入者 |
---|---|---|
2022-02-01 | 100000 | 10 |
↓
列にフォルダ名を追加する
日付 | 売上 | 購入者 | フォルダ名 |
---|---|---|---|
2022-01-01 | 100000 | 10 | 2022-01 |
2022-01-01 | 100000 | 10 | 2022-02 |
データの中に改行が含まれる
このオプションは Hyper nehan プラン適用環境のみ有効なオプションです。
かつ、Hyper 読み込み時のみ有効です。
例
データ.csv
社名 | 住所 |
---|---|
株式会社 A | 〒 100-1000 東京都渋谷区 |
… | … |
もしオプションが OFF のままだと行がずれて読み込まれ、間違ったデータソースができてしまう
社名 | 住所 |
---|---|
株式会社 A | 〒 100-1000 |
東京都渋谷区 | <NA> |
… | … |
↓
オプションを on にすることで正しく読み込める
社名 | 住所 |
---|---|
株式会社 A | 〒 100-1000 東京都渋谷区 |
… | … |