SHARP: Síntesis 3D desde una Sola Imagen en Menos de un Segundo

SHARP (Sharp Monocular View Synthesis) es un modelo de investigación de Apple que convierte una sola fotografía en una representación 3D navegable en menos de un segundo. El resultado es un 3D Gaussian Splat renderizable en tiempo real con alta resolución fotorrealista.

¿Cómo funciona? A partir de una imagen, SHARP predice los parámetros de una representación 3DGS mediante un único forward pass por una red neuronal en una GPU estándar. La representación es métrica, con escala absoluta, lo que permite movimientos de cámara realistas.

Los resultados son notables: reduce el error LPIPS entre un 25–34% y el DISTS entre un 21–43% respecto al mejor modelo previo, mientras reduce el tiempo de síntesis en tres órdenes de magnitud.

El proyecto ya está disponible como código abierto con una CLI sencilla:

sharp predict -i /ruta/imágenes -o /ruta/gaussians

Los archivos .ply de salida son compatibles con múltiples renderizadores de 3DGS públicos. Un avance que acerca la reconstrucción 3D a cualquier desarrollador con una sola foto y una GPU.

Más información en el link 👇

GitHub - apple/ml-sharp: Sharp Monocular View Synthesis in Less Than a Second

Sharp Monocular View Synthesis in Less Than a Second - apple/ml-sharp

github.com ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano