รูปแบบ Parquet — ที่จัดเก็บข้อมูลแบบคอลัมน์

Parquet เป็นรูปแบบจัดเก็บแบบคอลัมน์ที่ปรับปรุงสำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่ โดยจัดเก็บข้อมูลเป็นคอลัมน์แทนแถว ทำให้คิวรีวิเคราะห์สามารถอ่านเฉพาะคอลัมน์ที่ต้องการ ลดปริมาณ I/O ได้อย่างมาก

ประเภท MIME

application/vnd.apache.parquet

ประเภท

ไบนารี

การบีบอัด

ไม่สูญเสียคุณภาพ

ข้อดี

+ Excellent compression through columnar encoding
+ Fast analytical queries — reads only needed columns
+ Predicate pushdown skips irrelevant row groups entirely
+ Standard in Spark, DuckDB, Pandas, and cloud data lakes

ข้อเสีย

− Not suited for transactional row-level updates
− More complex to write than CSV or JSON
− Schema evolution has some limitations

เมื่อใดควรใช้ .PARQUET

ใช้ Parquet สำหรับ data lakes, งานวิเคราะห์, การประมวลผลด้วย Spark/Pandas และชุดข้อมูลขนาดใหญ่ที่คิวรีแบบคอลัมน์มีประโยชน์

รายละเอียดทางเทคนิค

ไฟล์ Parquet ประกอบด้วย row groups แต่ละกลุ่มแบ่งเป็น column chunks พร้อมการเข้ารหัสระดับหน้า (dictionary, RLE, delta) สถิติ (min/max/null count) ช่วยให้ข้ามข้อมูลที่ไม่เกี่ยวข้องได้

ประวัติ

Twitter และ Cloudera สร้าง Parquet ในปี 2013 ได้แรงบันดาลใจจากเอกสาร Dremel ของ Google กลายเป็นโปรเจกต์ Apache และเป็นรูปแบบมาตรฐานสำหรับ data lakes

แปลงจาก .PARQUET

.parquet → .arrow .parquet → .avro .parquet → .bson .parquet → .csv .parquet → .hdf5 .parquet → .json .parquet → .msgpack .parquet → .ndjson .parquet → .protobuf .parquet → .sql .parquet → .sqlite .parquet → .xlsx .parquet → .xml

แปลงเป็น .PARQUET

.arrow → .parquet .avro → .parquet .bson → .parquet .csv → .parquet .hdf5 → .parquet .json → .parquet .msgpack → .parquet .ndjson → .parquet .protobuf → .parquet .sql → .parquet .sqlite → .parquet .xlsx → .parquet .xml → .parquet

รูปแบบที่เกี่ยวข้อง

.arrow .avro .bson .geojson .hdf5 .msgpack .ndjson .protobuf .sqlite

คำศัพท์ที่เกี่ยวข้อง

Parquet

Categories

Apache Parquet (ที่จัดเก็บแบบคอลัมน์)