Ir al contenido
  1. Posts/

Cómo Manejar el Cambio de Covarianza en Modelos de ML

··301 palabras·2 mins·

📊 ¿El modelo falló… o falló la evaluación?

Cuando un modelo de machine learning rinde peor en producción que en validación, solemos culpar al data shift — y seguimos con nuestras vidas. Pero hay una forma más inteligente de abordarlo.

🔍 El problema real: El covariate shift (cuando la distribución del dato cambia entre entrenamiento y producción) no es una excusa, es una herramienta. Si la distribución de edades en el dataset de test es distinta a la de validación, estamos comparando peras con manzanas.

⚖️ La solución: Inverse Probability Weighting (IPW) En lugar de filtrar datos, asignamos un peso continuo a cada registro de validación para que estadísticamente “parezca” el dataset de producción:

  • Peso = 1 → análisis estándar
  • Peso = 0 → excluir registro
  • Peso > 1 → amplificar la influencia del registro

Para múltiples variables simultáneas, se entrena un clasificador binario (propensity model) que aprende a distinguir ambos datasets. Su output de probabilidad se convierte directamente en los pesos.


💡 Explicación en pocas palabras
#

Imaginá que querés saber si tu modelo funciona bien con pacientes de 50 a 80 años, pero tu dataset de validación tiene pacientes de 40 a 90. En lugar de descartar filas, le das más “importancia” a los registros similares a tu target. Así obtenés una medición honesta del rendimiento real, sin tirar datos.


✅ El resultado: tu validación ponderada se vuelve estadísticamente indistinguible del set de producción. Una forma concreta de responder: "¿el modelo está roto, o simplemente cambió el contexto?"

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano