YOLOv3: Mejor que YOLOv2, Pero No Tanto

👁️ YOLOv3: el paper cuyo título original literalmente dice “an incremental improvement”. Una rareza científica — y una arquitectura que funcionó.

Después de YOLOv2, métodos como SSD, DSSD y RetinaNet empezaban a hacerle sombra. Los autores respondieron con mejoras incrementales que resultaron en ganancias de performance significativas.

¿Qué cambió de YOLOv2 a YOLOv3?

Darknet-53 → nuevo backbone con 52 capas convolucionales + residual connections (inspirado en ResNet). Antes era Darknet-19. Más profundo = más capacidad de representación.
Multi-scale detection → YOLOv3 detecta objetos en 3 escalas diferentes del feature map. Esto mejora enormemente la detección de objetos pequeños, que era el talón de Aquiles de YOLO.
Clasificación multi-label → usa sigmoid en lugar de softmax. Permite que un objeto pertenezca a múltiples categorías (útil en datasets con jerarquías de clases).

Performance: en COCO mAP@50 supera a RetinaNet siendo ~4x más rápido. La velocidad sigue siendo el punto fuerte de YOLO.

El artículo también incluye implementación completa desde cero en PyTorch.

💡 Explicación en pocas palabras
#

YOLOv3 no reinventó la detección de objetos — refinó lo que funcionaba. Multi-scale detection y Darknet-53 fueron los cambios clave. El resultado: detecta objetos pequeños mucho mejor que sus predecesores, mantiene la velocidad característica de YOLO y sienta las bases para las versiones modernas.

Más información en el link 👇

YOLOv3 Paper Walkthrough: Even Better, But Not That Much | Towards Data Science

A PyTorch implementation on the YOLOv3 architecture from scratch

towardsdatascience.com ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano

💡 Explicación en pocas palabras#

YOLOv3 Paper Walkthrough: Even Better, But Not That Much | Towards Data Science

💡 Explicación en pocas palabras
#