Ir al contenido
  1. Posts/

Cómo Hacer Crawling de un Sitio de Documentación Completo con Olostep

··256 palabras·2 mins·

🕷️ Convertir documentación completa en Markdown limpio para agentes de IA en minutos

Hacer crawling de sitios de documentación parece simple pero es complejo: páginas anidadas, links de navegación repetidos, contenido irregular… Olostep lo resuelve con una API.

🔧 El stack:

pip install olostep python-dotenv tqdm

📜 El script en 3 pasos:

  1. Configurar el crawl — URL de inicio, profundidad máxima, páginas, reglas de inclusión/exclusión
  2. Extraer en Markdown — Olostep devuelve el contenido ya limpio y estructurado
  3. Guardar localmente — cada página como archivo .md listo para RAG o agentes

Velocidad real: 50 páginas con profundidad 5 → ~50 segundos

🆚 ¿Por qué no Scrapy o Selenium?

  • Scrapy requiere mucho setup como framework completo
  • Selenium es para automatización de browsers, no crawling de documentación
  • Olostep: search + crawl + scrape + structure en una sola API, con output LLM-friendly

🎛️ Bonus: El artículo incluye una app Gradio para crawlear sin tocar código.

💡 Explicación en pocas palabras
#

Un agente de IA es tan bueno como el contexto que recibe. Para darle acceso a documentación completa (como los docs de Claude o FastAPI), necesitás primero convertir esas páginas en texto limpio. Olostep automatiza ese proceso: das una URL y te devuelve el contenido listo para alimentar tu sistema de RAG.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano