Cómo Manejar el Cambio de Covarianza en Modelos de ML

📊 ¿El modelo falló… o falló la evaluación?

Cuando un modelo de machine learning rinde peor en producción que en validación, solemos culpar al data shift — y seguimos con nuestras vidas. Pero hay una forma más inteligente de abordarlo.

🔍 El problema real: El covariate shift (cuando la distribución del dato cambia entre entrenamiento y producción) no es una excusa, es una herramienta. Si la distribución de edades en el dataset de test es distinta a la de validación, estamos comparando peras con manzanas.

⚖️ La solución: Inverse Probability Weighting (IPW) En lugar de filtrar datos, asignamos un peso continuo a cada registro de validación para que estadísticamente “parezca” el dataset de producción:

Peso = 1 → análisis estándar
Peso = 0 → excluir registro
Peso > 1 → amplificar la influencia del registro

Para múltiples variables simultáneas, se entrena un clasificador binario (propensity model) que aprende a distinguir ambos datasets. Su output de probabilidad se convierte directamente en los pesos.

💡 Explicación en pocas palabras
#

Imaginá que querés saber si tu modelo funciona bien con pacientes de 50 a 80 años, pero tu dataset de validación tiene pacientes de 40 a 90. En lugar de descartar filas, le das más “importancia” a los registros similares a tu target. Así obtenés una medición honesta del rendimiento real, sin tirar datos.

✅ El resultado: tu validación ponderada se vuelve estadísticamente indistinguible del set de producción. Una forma concreta de responder: "¿el modelo está roto, o simplemente cambió el contexto?"

Más información en el link 👇

Stop Blaming the Data: A Better Way to Handle Covariance Shift | Towards Data Science

Instead of using shift as an excuse for poor performance, use Inverse Probability Weighting to estimate how your model should perform in the …

towardsdatascience.com ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano

💡 Explicación en pocas palabras#

Stop Blaming the Data: A Better Way to Handle Covariance Shift | Towards Data Science

💡 Explicación en pocas palabras
#