
⚡ ¿dplyr, data.table, pandas, Polars o DuckDB? Este benchmark tiene la respuesta con datos reales.
El benchmark de operaciones database-like de DuckDB Labs compara las herramientas de manipulación de datos más populares en ciencia de datos open source. Las pruebas incluyen:
- groupby → agregaciones por grupo (la operación más común en análisis de datos)
- join → unión de datasets a distintas escalas
Los resultados se corren en datasets de distintos tamaños (0.5GB, 5GB, 50GB) para mostrar cómo escala cada herramienta.
¿Qué herramientas incluye? pandas, dplyr, data.table, DuckDB, Polars, Spark, ClickHouse y más.
Lo más interesante: el benchmark no solo muestra los tiempos — también muestra la sintaxis exacta que está midiendo. Así podés ver si la comparación aplica a tu caso de uso específico.
Este proyecto fue originalmente iniciado por H2O.ai y ahora lo mantiene DuckDB Labs. Corre automáticamente cuando se abre un PR en el repositorio.
💡 Explicación en pocas palabras#
No todas las herramientas de datos son iguales bajo carga real. DuckDB y Polars consistentemente aparecen entre los más rápidos para operaciones analíticas en memoria, mientras que herramientas como pandas muestran limitaciones a mayor escala. Este benchmark es la referencia más honesta disponible para elegir tu stack de datos.
Más información en el link 👇
