
👁️ YOLOv3: el paper cuyo título original literalmente dice “an incremental improvement”. Una rareza científica — y una arquitectura que funcionó.
Después de YOLOv2, métodos como SSD, DSSD y RetinaNet empezaban a hacerle sombra. Los autores respondieron con mejoras incrementales que resultaron en ganancias de performance significativas.
¿Qué cambió de YOLOv2 a YOLOv3?
Darknet-53 → nuevo backbone con 52 capas convolucionales + residual connections (inspirado en ResNet). Antes era Darknet-19. Más profundo = más capacidad de representación.
Multi-scale detection → YOLOv3 detecta objetos en 3 escalas diferentes del feature map. Esto mejora enormemente la detección de objetos pequeños, que era el talón de Aquiles de YOLO.
Clasificación multi-label → usa sigmoid en lugar de softmax. Permite que un objeto pertenezca a múltiples categorías (útil en datasets con jerarquías de clases).
Performance: en COCO mAP@50 supera a RetinaNet siendo ~4x más rápido. La velocidad sigue siendo el punto fuerte de YOLO.
El artículo también incluye implementación completa desde cero en PyTorch.
💡 Explicación en pocas palabras#
YOLOv3 no reinventó la detección de objetos — refinó lo que funcionaba. Multi-scale detection y Darknet-53 fueron los cambios clave. El resultado: detecta objetos pequeños mucho mejor que sus predecesores, mantiene la velocidad característica de YOLO y sienta las bases para las versiones modernas.
Más información en el link 👇

