Detectar manipulación de metadatos PDF: guía de verificación documental
Cómo detectar un documento PDF alterado analizando sus metadatos: técnicas forenses, herramientas, señales de alerta y obligaciones SEPBLAC para equipos de cumplimiento.

Resumir este artículo con
Detectar un PDF adulterado comienza por sus metadatos: la fecha de creación, el software que lo generó, el historial de modificaciones y los campos XMP pueden revelar en segundos que un documento ha sido retocado tras su emisión original. El análisis forense de metadatos PDF, antes reservado a peritos judiciales, es hoy una herramienta esencial para los equipos de cumplimiento KYC, riesgos y crédito que deben verificar la autenticidad de documentos recibidos por vía digital.
Según el Informe ACFE 2024 sobre el fraude empresarial, el 37 % de los fraudes documentales se detectan mediante controles internos, y el análisis automatizado de propiedades de fichero representa una parte creciente de esas detecciones. La mayoría de los documentos falsificados presentan incoherencias de metadatos detectables sin necesidad de acceder al documento original.
Qué son los metadatos PDF y por qué importan en la detección de fraude
Los metadatos PDF son los datos estructurados que describen el propio fichero, independientemente de su contenido visible. Un PDF contiene dos capas distintas de metadatos:
El diccionario de información (entrada /Info en el catálogo PDF) almacena campos legibles por cualquier aplicación: autor, título, palabras clave, aplicación creadora (/Creator), software de escritura PDF (/Producer), fecha de creación (/CreationDate) y fecha de última modificación (/ModDate).
Los metadatos XMP (Extensible Metadata Platform, estándar ISO 16684) forman un bloque XML embebido en el flujo del fichero. Replican el diccionario /Info con mayor granularidad, incluyendo el historial de revisiones (xmpMM:History), el identificador único del documento (xmpMM:DocumentID) y el identificador de instancia (xmpMM:InstanceID), que cambia en cada guardado.
Un documento falsificado presenta con frecuencia incoherencias entre estas dos capas, porque las herramientas de edición básicas solo actualizan una de ellas.
Cómo manipulan los metadatos los defraudadores
Las técnicas más comunes de manipulación utilizan software disponible libremente, lo que explica la proliferación de documentos falsos con anomalías de metadatos identificables:
Edición directa del diccionario /Info: editores hexadecimales o bibliotecas Python como PyPDF2 permiten reescribir los campos de fecha y autor sin dejar rastro visible en el documento renderizado. Una nómina cuya fecha de creación ha sido retrasada seis meses puede parecer reciente.
Reimpresión digital: el PDF falsificado se imprime hacia un nuevo fichero PDF mediante una impresora virtual, borrando los metadatos originales y generando nuevas fechas coherentes con el momento de la falsificación. Esta técnica produce artefactos de recompresión detectables mediante análisis ELA.
Edición en Adobe Acrobat o LibreOffice: abrir y guardar un documento en estas aplicaciones actualiza automáticamente /ModDate y registra el software como /Producer, dejando una huella involuntaria.
Manipulación de campos XMP: los defraudadores más sofisticados también modifican los metadatos XMP para alinear ambas capas. Sin embargo, el xmpMM:InstanceID — un UUID regenerado en cada guardado — cambia con cualquier modificación y puede delatar el software utilizado.
Técnicas de detección de metadatos alterados
Extracción y verificación de metadatos en bruto
ExifTool (exiftool.org) es la herramienta de referencia: lee simultáneamente los metadatos /Info, XMP y EXIF de un PDF y señala incoherencias entre capas.
Las principales señales de alerta a buscar:
| Campo | Señal de alerta | Interpretación probable |
|---|---|---|
/ModDate posterior a /CreationDate |
Documento guardado de nuevo tras la creación | Contenido posiblemente modificado |
/Producer diferente del /Creator |
Documento convertido o impreso a PDF | Contenido potencialmente reescrito |
XMP InstanceID ≠ DocumentID |
Al menos un guardado posterior a la creación | Revisión tras la producción inicial |
Campos /Info vacíos, XMP relleno |
Borrado selectivo de metadatos | Intento de ocultación |
| Fecha de creación anterior a 1993 | Valor imposible (el PDF fue creado en 1993) | Metadatos falsificados |
| Zona horaria incoherente con el emisor | Offset +00:00 para un banco español | Producción fuera de la zona declarada |
Análisis estructural del fichero PDF
El formato PDF es incremental: cada modificación añade una nueva revisión al fichero sin borrar las anteriores. pdfid.py (blog.didierstevens.com) y QPDF (qpdf.sourceforge.io) leen el número de revisiones y los objetos modificados.
Una nómina o extracto bancario legítimo solo tiene una revisión: la generación inicial por el software de nóminas o el sistema bancario. Múltiples revisiones — especialmente si afectan a objetos de texto o imagen — son un indicador fuerte de adulteración.
Verificación de la firma criptográfica
Muchos documentos oficiales incorporan una firma electrónica conforme al Reglamento eIDAS (UE) No 910/2014. La verificación de la firma revela inmediatamente cualquier modificación de contenido posterior a la firma: cualquier alteración del flujo de datos invalida la firma criptográfica.
La Agencia Tributaria española ofrece servicios de verificación en línea para declaraciones tributarias, lo que permite confirmar la autenticidad de un documento fiscal presentado por un cliente sin depender únicamente del análisis de metadatos.
Análisis ELA (Error Level Analysis)
El análisis ELA detecta zonas de un documento digital que han sufrido una recompresión diferente del resto. Aplicado a PDFs con imágenes, revela las zonas retocadas con una precisión que el ojo humano no puede alcanzar. Herramientas como FotoForensics automatizan este análisis.
¿Listo para automatizar sus verificaciones?
Piloto gratuito con sus propios documentos. Resultados en 48h.
Solicitar un piloto gratuitoHerramientas forenses para análisis PDF
| Herramienta | Uso principal | Gratuita | Integrable por API |
|---|---|---|---|
| ExifTool | Extracción de metadatos | Sí | Sí (línea de comandos) |
| pdfid.py | Análisis de estructura PDF | Sí | Sí (Python) |
| QPDF | Revisiones incrementales | Sí | Sí |
| pdf-parser.py (Didier Stevens) | Objetos PDF en bruto | Sí | Sí |
| Plataforma CheckFile | Análisis automático multicapa | No | Sí (API REST) |
Marco regulatorio en España: obligaciones SEPBLAC y CNMV
En España, las entidades sujetas a la Ley 10/2010 de prevención del blanqueo de capitales deben aplicar medidas de diligencia debida adaptadas al riesgo al verificar los documentos presentados por sus clientes. El SEPBLAC (Servicio Ejecutivo de la Comisión de Prevención del Blanqueo de Capitales) ha emitido directrices que exigen que la verificación documental en procesos digitales incluya controles técnicos, y no solo visuales.
La transposición de la 6.ª Directiva Antiblaqueo (AMLD6, Directiva 2024/1640), en vigor desde enero de 2026, refuerza estas obligaciones para los documentos digitales presentados a distancia. Las entidades financieras supervisadas por el Banco de España y la CNMV que acepten PDFs sin verificación de metadatos se exponen a un riesgo regulatorio documentado.
El Banco de España recomienda a las entidades de crédito cruzar los datos declarados con fuentes externas cuando el riesgo de fraude documental es elevado, especialmente en el contexto de concesión de créditos y apertura de cuentas en remoto.
Verificación cruzada entre documentos
La verificación de metadatos de un PDF aislado no es suficiente. La detección más eficaz cruza varios documentos emitidos por el mismo originador: un empleador produce sistemáticamente sus nóminas con el mismo software de nóminas, el mismo nombre exacto de empresa, las mismas fuentes tipográficas. Variaciones entre nóminas consecutivas — cambio de /Producer, fuente diferente, versión de software distinta — son señales fuertes de adulteración.
Esta validación cruzada documental es hoy el núcleo de los sistemas de verificación documental automatizada. Va más allá del OCR tradicional al incorporar la coherencia estructural y de metadatos entre los documentos de un mismo expediente.
Las plataformas especializadas como CheckFile implementan esta lógica de análisis multicapa — estructural, metadatos y coherencia inter-documentos — para marcar automáticamente los expedientes con anomalías. El análisis multicapa que combina metadatos, estructura de fichero y coherencia entre documentos constituye la metodología más fiable para identificar documentos PDF adulterados.
Para una visión más amplia de las técnicas de forense documental, el artículo sobre herramientas de análisis forense documental con IA ofrece un panorama completo de las soluciones disponibles en 2026.
Patrones reales en casos de fraude documental
Los profesionales de cumplimiento que gestionan expedientes de fraude documental reportan de forma consistente los mismos patrones recurrentes:
Nóminas reconstruidas: el caso más frecuente implica una nómina exportada desde software de nóminas (Sage, A3, CEGID), convertida a PDF, y luego editada para ajustar el salario. La cadena de /Producer revela la secuencia: Sage → Adobe Acrobat → Microsoft Print to PDF.
Extractos bancarios retocados: el banco genera el extracto con software propietario. El defraudador lo abre en un editor PDF, modifica los importes, y vuelve a guardar. El /ModDate se convierte en posterior a la fecha declarada del extracto, y el UUID XMP cambia.
Declaraciones tributarias modificadas: más sofisticado, porque algunos defraudadores regeneran íntegramente el documento. Sin embargo, los documentos tributarios españoles incluyen un CSV (Código Seguro de Verificación) verificable en la sede electrónica de la Agencia Tributaria, haciendo detectable de forma inmediata cualquier sustitución.
Integrar el análisis de metadatos en el flujo de verificación
Para los equipos de cumplimiento que procesan grandes volúmenes de documentos, el análisis manual de metadatos es impracticable. Varias aproximaciones permiten industrializar este control:
APIs de análisis documental: plataformas como CheckFile exponen APIs REST que reciben un PDF y devuelven una puntuación de riesgo documental que incorpora el análisis de metadatos, la estructura del fichero y la coherencia inter-documentos.
Scripts de análisis en masa: para equipos técnicos, ExifTool combinado con un script Python puede analizar cientos de PDFs por hora y señalar automáticamente las anomalías. La regla de base: cualquier documento cuyo /ModDate sea posterior a la fecha de producción declarada merece revisión humana.
Checklist de recepción documental: para equipos sin acceso a herramientas técnicas, una práctica sencilla es solicitar sistemáticamente la versión digital original (no una copia impresa-escaneada) y comprobar la fecha de creación mediante las propiedades del fichero, accesibles en cualquier lector PDF mediante Archivo → Propiedades → Descripción.
Para más información sobre la detección automatizada de documentos fraudulentos, consulte la página de detección de documentos generados por IA donde se explica cómo CheckFile integra estos señales en su pipeline de verificación.
Consulte también nuestra guía completa de verificación documental para un panorama general de los métodos disponibles según el tipo de documento.
Preguntas frecuentes
¿Se puede detectar un PDF adulterado sin software especializado?
Sí, parcialmente. Cualquier lector PDF (Adobe Reader, Vista Previa en macOS) muestra los metadatos básicos mediante Archivo → Propiedades. Una fecha de modificación posterior a la fecha de emisión declarada es una señal de alerta inmediata. Para un análisis completo — revisiones incrementales, coherencia XMP — son necesarias herramientas gratuitas como ExifTool.
¿Pueden modificarse los metadatos de forma completamente indetectable?
Es difícil, pero posible para un actor cualificado. Un defraudador avanzado puede alinear ambas capas de metadatos (Info y XMP), eliminar el historial de revisiones y regenerar el UUID del documento. Sin embargo, artefactos residuales — nivel de compresión, versión de fuentes, estructura de objetos PDF — siguen siendo generalmente detectables mediante análisis forense exhaustivo.
¿Qué valor legal tiene el análisis forense de metadatos PDF en España?
El análisis forense de metadatos puede constituir prueba admisible en procedimientos civiles y penales españoles, especialmente en casos de falsedad documental (artículo 390 del Código Penal). La cadena de custodia debe estar documentada. Para máximo valor jurídico, el análisis debe realizarse por un perito informático judicial colegiado.
¿Verifican los bancos españoles los metadatos de los documentos enviados en línea?
Los bancos y entidades financieras sujetos a la Ley 10/2010 tienen la obligación legal de aplicar diligencias adaptadas al riesgo. En la práctica, las entidades más avanzadas utilizan plataformas de análisis documental automatizado que incluyen la verificación de metadatos. La transposición de AMLD6 (2026) acelera la adopción de controles técnicos en todo el sector.
¿Cómo verifico la autenticidad de un documento oficial en España?
Muchos documentos oficiales españoles incluyen códigos de verificación. Los documentos tributarios llevan un CSV verificable en la sede electrónica de la Agencia Tributaria; las escrituras notariales pueden verificarse a través del Consejo General del Notariado; los documentos del Registro Mercantil son verificables en el portal de registros oficiales. Estos servicios de verificación deben usarse junto con — no en lugar de — el análisis de metadatos.
Para situar este riesgo en la oferta CheckFile, consulte nuestro enfoque de detección IA y deepfake.
Manténgase informado
Reciba nuestros análisis de cumplimiento y guías prácticas en su correo.