Ir al contenido
  1. Posts/

X-Ray: Encontrando Redacciones Fallidas en PDFs con Python

··232 palabras·2 mins·

🔍 X-Ray: ¿Tu PDF “Redactado” Sigue Siendo Legible?

¿Alguna vez viste un PDF con texto “tachado” bajo un rectángulo negro? Muchas veces, ese texto sigue estando ahí. x-ray es una librería Python de Free Law Project que detecta automáticamente estas redacciones fallidas.

🚨 El problema:

En lugar de eliminar el texto, muchos documentos simplemente dibujan un rectángulo negro encima. El texto sigue siendo seleccionable. Free Law Project encontró este patrón en millones de PDFs judiciales — su caso favorito: un documento que expuso el número personal de Taylor Swift.

⚙️ ¿Cómo funciona?

  1. Encuentra rectángulos en el PDF
  2. Detecta letras en la misma ubicación
  3. Renderiza el rectángulo como imagen
  4. Verifica si es de un solo color → texto oculto debajo
uvx --from x-ray xray documento.pdf
# Salida: {"1": [{"bbox": [...], "text": "texto secreto"}]}

También funciona con URLs remotas y como módulo Python. Internamente usa PyMuPDF. Licencia BSD.

💡 Explicación en pocas palabras

Un PDF es como una hoja de papel digital con capas. Una redacción real elimina el texto. Una redacción mal hecha solo pone una caja negra encima, ¡pero el texto sigue debajo! Esta herramienta hace visible lo que debería haber sido eliminado.

Más información en el link 👇

También publicado en LinkedIn.
Juan Pedro Bretti Mandarano
Autor
Juan Pedro Bretti Mandarano