parquetファイルの活用
parquet ファイルとは
parquet ファイルは、大量のデータを効率的に保存・処理するための新しいファイル形式であり、.parquet
が拡張子としてファイル末尾に付与されます。
従来のエクセルファイル(xlsx)や CSV ファイルと比べて、読み書き速度が速いのが特徴です。
また、parquet ファイルは大規模なデータを扱うことを前提としているため、1 つの大きなファイルとしてまとめるのではなく、複数の小さなファイル(データの塊=パーティション)に分割して保存される特徴があります。
nehan と parquet
データソース作成(読み込み)
ファイル系データタイプにて、parquet ファイルを読み込むことができます。
データエクスポート
- Amazon S3
- Google Cloud Storage
にて、parquet ファイルのエクスポートが対応しています。