El Científico de Datos Robusto: Ganando con Datos Sucios y Pingouin

📊 El Científico de Datos Robusto: Lidiando con Datos Sucios y Pingouin

¿Alguna vez preparaste tu análisis con datos perfectos… y en producción todo explotó? 💥

La realidad del mundo real es que los datos no siempre siguen distribuciones normales ni cumplen los supuestos clásicos de los test estadísticos. Outliers, distribuciones sesgadas y varianzas desiguales son moneda corriente.

Este artículo propone un enfoque de “elige tu aventura” con tres escenarios usando 🐧 Pingouin (librería Python de estadística):

🔹 Aventura 1 — Normalidad fallida: Cuando los datos no son normales, el test t es peligroso. Solución: Mann-Whitney U test, que trabaja con rangos en lugar de medias.

🔹 Aventura 2 — T-test pareado fallido: Cuando las diferencias entre medidas pareadas no son normales. Solución: Test de Wilcoxon Signed-Rank, el hermano robusto del t-test pareado.

🔹 Aventura 3 — ANOVA fallido: Cuando las varianzas entre grupos son muy dispares. Solución: ANOVA de Welch, que penaliza los grupos con alta varianza para equilibrar las comparaciones.

💡 Explicación en pocas palabras
#

Imagina que quieres comparar si dos grupos son diferentes. Normalmente usarías la media, pero si hay muchos valores extremos, eso falla. Las estadísticas robustas son técnicas matemáticas que funcionan incluso cuando los datos son “desordenados”, minimizando el impacto de esos valores atípicos para obtener conclusiones más confiables.

Más información en el link 👇