Ir al contenido
  1. Posts/

Database-like ops benchmark: ¿Qué herramienta de datos es más rápida?

··217 palabras·2 mins·

¿dplyr, data.table, pandas, Polars o DuckDB? Este benchmark tiene la respuesta con datos reales.

El benchmark de operaciones database-like de DuckDB Labs compara las herramientas de manipulación de datos más populares en ciencia de datos open source. Las pruebas incluyen:

  • groupby → agregaciones por grupo (la operación más común en análisis de datos)
  • join → unión de datasets a distintas escalas

Los resultados se corren en datasets de distintos tamaños (0.5GB, 5GB, 50GB) para mostrar cómo escala cada herramienta.

¿Qué herramientas incluye? pandas, dplyr, data.table, DuckDB, Polars, Spark, ClickHouse y más.

Lo más interesante: el benchmark no solo muestra los tiempos — también muestra la sintaxis exacta que está midiendo. Así podés ver si la comparación aplica a tu caso de uso específico.

Este proyecto fue originalmente iniciado por H2O.ai y ahora lo mantiene DuckDB Labs. Corre automáticamente cuando se abre un PR en el repositorio.

💡 Explicación en pocas palabras
#

No todas las herramientas de datos son iguales bajo carga real. DuckDB y Polars consistentemente aparecen entre los más rápidos para operaciones analíticas en memoria, mientras que herramientas como pandas muestran limitaciones a mayor escala. Este benchmark es la referencia más honesta disponible para elegir tu stack de datos.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano