
📊 Pipelines de EDA Más Rigurosos con Pingouin#
¿Tus análisis exploratorios son solo histogramas y scatter plots? Es hora de subir el nivel. 📈
🔍 ¿Qué es Pingouin?#
Pingouin es una librería Python que actúa como puente entre SciPy y pandas, permitiendo construir pipelines de EDA estadísticamente rigurosos.
🧪 Lo que puedes validar con Pingouin#
- ✅ Normalidad univariada — Test de Shapiro-Wilk con
pg.normality() - ✅ Homocedasticidad — Test de Levene con
pg.homoscedasticity() - ✅ Correlaciones avanzadas — Con p-values y estadísticos robustos
- ✅ Outliers y tests estadísticos — Completos con una sola función
💻 Ejemplo rápido#
import pingouin as pg
import pandas as pd
df = pd.read_csv("wine-quality.csv")
# Test de normalidad
normality = pg.normality(df[['pH', 'alcohol', 'fixed acidity']])
print(normality)🚨 La regla de oro: Garbage In, Garbage Out (GIGO)#
Alimentar un modelo con datos que violan sus supuestos matemáticos es la receta perfecta para modelos ineficaces. Pingouin te ayuda a detectar estos problemas antes de modelar.
💡 Explicación en pocas palabras#
Pingouin es una librería Python de estadística que extiende SciPy con una API tipo pandas, facilitando la validación estadística de datos en pipelines de EDA. Te permite verificar normalidad, homogeneidad de varianzas y correlaciones con p-values en pocas líneas de código — esencial antes de entrenar cualquier modelo de ML.
Más información en el link 👇

