Ir al contenido
  1. Posts/

Vortex: Formato Columnar de Alto Rendimiento, Alternativa a Parquet

··186 palabras·1 min·

🌀 ¿Usás Parquet? Este nuevo formato columnar es hasta 100x más rápido en acceso aleatorio.

Vortex es un formato de archivo columnar open source diseñado para hardware moderno. Ahora sub-proyecto de la Linux Foundation. Sus benchmarks son impresionantes:

MétricaMejora vs Parquet
Acceso aleatorio100x más rápido
Escaneos10-20x más rápido
Escrituras5x más rápido
TamañoComparable

¿Qué lo hace tan rápido?

  • Encodings en cascada: compresión “white box” que permite cómputo directo sobre datos comprimidos
  • 🧮 SIMD y GPU: diseñado para instrucciones vectoriales modernas
  • 🔗 Zero-copy con Apache Arrow: interoperable sin conversión
  • 📦 Metadatos optimizados: lectura eficiente desde object storage

Compatible con Polars, Pandas, DuckDB, DataFusion y Spark.

💡 Explicación en pocas palabras
#

Parquet es el formato de archivo más popular para datos tabulares en data lakes. Vortex quiere reemplazarlo siendo mucho más rápido, especialmente cuando necesitás buscar filas específicas (acceso aleatorio). Lo logra con técnicas de compresión inteligentes que permiten hacer operaciones sin descomprimir los datos primero, aprovechando las capacidades modernas de CPUs y GPUs.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano