Ir al contenido
  1. Posts/

YOLOv3: Mejor que YOLOv2, Pero No Tanto

··244 palabras·2 mins·

👁️ YOLOv3: el paper cuyo título original literalmente dice “an incremental improvement”. Una rareza científica — y una arquitectura que funcionó.

Después de YOLOv2, métodos como SSD, DSSD y RetinaNet empezaban a hacerle sombra. Los autores respondieron con mejoras incrementales que resultaron en ganancias de performance significativas.

¿Qué cambió de YOLOv2 a YOLOv3?

  1. Darknet-53 → nuevo backbone con 52 capas convolucionales + residual connections (inspirado en ResNet). Antes era Darknet-19. Más profundo = más capacidad de representación.

  2. Multi-scale detection → YOLOv3 detecta objetos en 3 escalas diferentes del feature map. Esto mejora enormemente la detección de objetos pequeños, que era el talón de Aquiles de YOLO.

  3. Clasificación multi-label → usa sigmoid en lugar de softmax. Permite que un objeto pertenezca a múltiples categorías (útil en datasets con jerarquías de clases).

Performance: en COCO mAP@50 supera a RetinaNet siendo ~4x más rápido. La velocidad sigue siendo el punto fuerte de YOLO.

El artículo también incluye implementación completa desde cero en PyTorch.

💡 Explicación en pocas palabras
#

YOLOv3 no reinventó la detección de objetos — refinó lo que funcionaba. Multi-scale detection y Darknet-53 fueron los cambios clave. El resultado: detecta objetos pequeños mucho mejor que sus predecesores, mantiene la velocidad característica de YOLO y sienta las bases para las versiones modernas.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano