Apache Parquet (ที่จัดเก็บแบบคอลัมน์)
Parquet เป็นรูปแบบจัดเก็บแบบคอลัมน์ที่ปรับปรุงสำหรับการวิเคราะห์ชุดข้อมูลขนาดใหญ่ โดยจัดเก็บข้อมูลเป็นคอลัมน์แทนแถว ทำให้คิวรีวิเคราะห์สามารถอ่านเฉพาะคอลัมน์ที่ต้องการ ลดปริมาณ I/O ได้อย่างมาก
ประเภท MIME
application/vnd.apache.parquet
ประเภท
ไบนารี
การบีบอัด
ไม่สูญเสียคุณภาพ
ข้อดี
- + Excellent compression through columnar encoding
- + Fast analytical queries — reads only needed columns
- + Predicate pushdown skips irrelevant row groups entirely
- + Standard in Spark, DuckDB, Pandas, and cloud data lakes
ข้อเสีย
- − Not suited for transactional row-level updates
- − More complex to write than CSV or JSON
- − Schema evolution has some limitations
เมื่อใดควรใช้ .PARQUET
ใช้ Parquet สำหรับ data lakes, งานวิเคราะห์, การประมวลผลด้วย Spark/Pandas และชุดข้อมูลขนาดใหญ่ที่คิวรีแบบคอลัมน์มีประโยชน์
รายละเอียดทางเทคนิค
ไฟล์ Parquet ประกอบด้วย row groups แต่ละกลุ่มแบ่งเป็น column chunks พร้อมการเข้ารหัสระดับหน้า (dictionary, RLE, delta) สถิติ (min/max/null count) ช่วยให้ข้ามข้อมูลที่ไม่เกี่ยวข้องได้
ประวัติ
Twitter และ Cloudera สร้าง Parquet ในปี 2013 ได้แรงบันดาลใจจากเอกสาร Dremel ของ Google กลายเป็นโปรเจกต์ Apache และเป็นรูปแบบมาตรฐานสำหรับ data lakes