
🕷️ Convertir documentación completa en Markdown limpio para agentes de IA en minutos
Hacer crawling de sitios de documentación parece simple pero es complejo: páginas anidadas, links de navegación repetidos, contenido irregular… Olostep lo resuelve con una API.
🔧 El stack:
pip install olostep python-dotenv tqdm📜 El script en 3 pasos:
- Configurar el crawl — URL de inicio, profundidad máxima, páginas, reglas de inclusión/exclusión
- Extraer en Markdown — Olostep devuelve el contenido ya limpio y estructurado
- Guardar localmente — cada página como archivo
.mdlisto para RAG o agentes
⚡ Velocidad real: 50 páginas con profundidad 5 → ~50 segundos
🆚 ¿Por qué no Scrapy o Selenium?
- Scrapy requiere mucho setup como framework completo
- Selenium es para automatización de browsers, no crawling de documentación
- Olostep: search + crawl + scrape + structure en una sola API, con output LLM-friendly
🎛️ Bonus: El artículo incluye una app Gradio para crawlear sin tocar código.
💡 Explicación en pocas palabras#
Un agente de IA es tan bueno como el contexto que recibe. Para darle acceso a documentación completa (como los docs de Claude o FastAPI), necesitás primero convertir esas páginas en texto limpio. Olostep automatiza ese proceso: das una URL y te devuelve el contenido listo para alimentar tu sistema de RAG.
Más información en el link 👇

