Ir al contenido
  1. Posts/

Cómo Estructurar un Proyecto de Ciencia de Datos

··303 palabras·2 mins·

📁 ¿Tus proyectos de data science son un caos de carpetas y notebooks desordenados?

Organizar bien un proyecto no es solo una buena práctica — es lo que hace la diferencia entre un proyecto reproducible y uno que nadie (ni vos) puede entender seis meses después.

🗺️ Los 4 frameworks más usados:

  1. CRISP-DM (Cross-Industry Standard Process for Data Mining) Ciclo iterativo: Comprensión del negocio → Datos → Preparación → Modelado → Evaluación → Despliegue. El más usado en la industria.

  2. OSEMN (Obtain, Scrub, Explore, Model, iNterpret) Cinco pasos lógicos: obtener datos, limpiarlos, explorarlos, modelar e interpretar resultados.

  3. KDD (Knowledge Discovery in Databases) Cubre todo el ciclo de vida: selección → preprocesamiento → transformación → minería de datos → interpretación.

  4. SEMMA (Sample, Explore, Modify, Model, Assess) Énfasis en el desarrollo del modelo: muestra → exploración → modificación → modelado → evaluación.

⚠️ Errores comunes a evitar:

  • ❌ Hardcodear rutas absolutas (C:/Users/Juan/Downloads/data.csv) → ✅ Usar rutas relativas con pathlib
  • ❌ Todo en un único notebook de 100+ celdas → ✅ Jupyter solo para exploración, scripts .py para producción
  • ❌ Versionar datos en Git → ✅ Usar DVC (Data Version Control)
  • ❌ Sin README → ✅ Documentar cómo instalar, obtener datos y ejecutar el proyecto

🔍 Explicación en pocas palabras

Un “framework de proceso” es simplemente un mapa de rutas para tu proyecto. Te dice qué hacer primero, qué viene después y cómo evaluar si vas bien. CRISP-DM es el más adoptado en empresas, mientras que OSEMN es más popular en academia y tutoriales. ¡La clave es elegir uno y aplicarlo consistentemente!

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano