CSV/TSV/Textファイル
CSV、TSV、およびテキストファイルを読み込む際に使用できるオプションについて説明します。
対応ファイル形式
- .csv: カンマ区切り値(Comma-Separated Values)形式。最も一般的な表形式データファイル
- .tsv: タブ区切り値(Tab-Separated Values)形式。タブ文字で列を区切る CSV の変形
- .txt: テキストファイル。区切り文字を指定することで表形式データとして読み込み可能
読み込みオプション
文字コード(エンコーディング)
ファイルの文字コードを指定します。
-
自動検出: システムが自動的に文字コードを検出します。
- 日本語ファイルの場合、UTF-8、Shift-JIS、EUC-JP などを自動判別
- 自動検出に失敗する場合は手動で指定する必要があります
-
手動設定: 以下の文字コードを入力できます。
- utf-8: 国際標準の文字コード。最近のファイルはこれが多い
- cp932: Shift-JIS の場合に入力。日本語 Windows で一般的な文字コード。Excel から出力した CSV はこの形式が多い
- euc-jp: 主に UNIX 系で使われる日本語文字コード
文字コードに関する注意点
- 文字化けが発生する場合: 正しい文字コードを選択していない可能性があります。
- Excel から出力した CSV ファイル: 通常は Shift-JIS(CP932)で保存されます。
- UTF-8 の BOM: UTF-8 の BOM 付きファイルも自動的に認識されます。
区切り文字
データの列を区分する文字を指定します。
- カンマ(,): CSV 形式のデフォルト。最も一般的
- タブ(\t): TSV 形式のデフォルト。Excel からコピー&ペーストしたデータなどに使用
- セミコロン(;): 一部の国や地域の CSV で使用(特にヨーロッパ)
- スペース( ): スペース区切りのデータファイル
- その他: アンダースコア(_)、パイプ(|)などの任意の区切り文字を指定可能
区切り文字に関する注意点
- ファイル拡張子が
.csv
の場合はカンマ、.tsv
の場合はタブが自動的に選択されます。 - データ内に区切り文字と同じ文字が含まれる場合、通常はダブルクォーテーション(“)で囲まれます。
圧縮形式
圧縮されたファイルを直接読み込む場合に指定します。
- 自動検出: ファイル拡張子から自動的に圧縮形式を検出
- GZIP:
.gz
、.gzip
形式。高い圧縮率と速度のバランスが取れた形式 - BZ2:
.bz2
形式。GZIP より高い圧縮率だが処理は遅い - ZIP:
.zip
形式。複数ファイルをまとめて圧縮できる形式
圧縮ファイルの注意点
- 圧縮ファイルは直接読み込むことができ、解凍する必要はありません。
- 大きなデータファイルの場合、圧縮形式を使用することでストレージ容量とロード時間を削減できます。
注意事項
- TSV ファイルは拡張子が
.tsv
の場合、自動的にタブ区切りとして認識されます。 - 文字コードの自動検出は、ファイルの先頭部分を分析して行われますが、100%正確ではありません。
- 日本語を含むファイルでは、特に文字コードの選択が重要です。
- 区切り文字がデータ内にも含まれる場合は、引用符(“)で囲まれていることを確認してください。