Skip to content

Parquetファイル

Parquet ファイルを読み込む際に使用できるオプションについて説明します。
Parquet ファイルには以下の特徴があります。

スキーマ情報の自動保持: 列の型情報は自動的に保持されます
内部圧縮: Parquet 形式は内部で効率的な圧縮を行うため、別途圧縮形式を指定する必要はありません
列指向ストレージ: 特定の列だけを読み込む場合に高速です
大規模データセット対応: 大規模なデータセットでも効率的に読み込むことができます

対応ファイル形式

.parquet: Apache Parquet 形式。列指向の効率的なデータストレージ形式

読み込みオプション

Parquet 形式は自己記述型のフォーマットであるため、CSV/Excel/JSON と比較して設定オプションはありません。

注意事項

Parquet ファイルは主にビッグデータ処理システム(Hadoop、Spark、Hive など)で使用される形式です。
先頭から行数をスキップや各ファイルから読み込む行数を指定するオプションは使用できません。
列の型情報(整数、浮動小数点、文字列など)は自動的に保持されます。
通常のスプレッドシートソフトウェア(Excel、Google Sheets など)では直接開くことができません。