Checklist : signes qu'un document a été généré ou modifié par l'IA
12 signaux concrets — métadonnées, texte, visuels, données croisées — pour identifier un document fabriqué ou altéré par une IA. Guide pratique pour équipes conformité.

Résumer cet article avec
Un document généré ou altéré par une IA présente des traces caractéristiques réparties sur quatre niveaux : métadonnées du fichier, structure textuelle, cohérence visuelle et vérifiabilité des données. Cette checklist recense les 12 signaux les plus fiables, classés par difficulté de falsification, pour aider les équipes conformité, KYC et crédit à filtrer les dossiers suspects avant toute décision.
Selon le rapport ACFE 2024 Report to the Nations, seulement 37 % des fraudes documentaires sont détectées manuellement, avec un délai moyen de 87 jours. Les outils d'IA générative ont réduit ce délai de détection à quelques secondes pour un fraudeur expérimenté — ce qui rend la vérification systématique indispensable.
Niveau 1 — Métadonnées du fichier : vérification en 90 secondes
Les métadonnées sont la première zone à inspecter, car la plupart des générateurs d'IA les négligent ou les remplissent de façon incohérente.
Dans un PDF authentique émis par un organisme officiel, les métadonnées reflètent la chaîne de production du document (logiciel métier, imprimante, signature numérique institutionnelle). Un document généré par IA affiche typiquement un outil grand public comme ChatGPT PDF Export, Canva, PDFCreator 5.x ou un outil Python (reportlab, fpdf) dans le champ Producer ou Creator — source : analyse ENISA Threat Landscape 2024.
Champs à contrôler systématiquement :
- Creator / Producer : doit correspondre au logiciel institutionnel attendu (ex. :
Microsoft Wordpour un contrat de travail,SAPpour une fiche de paie d'une grande entreprise) - CreationDate vs ModDate : un écart de quelques secondes est suspect ; les documents légitimes conservent un historique de modifications
- Author : souvent laissé vide ou rempli d'un identifiant générique dans les documents fabriqués
- XMP metadata : absence totale dans les documents générés par des outils bas de gamme
Sur les photos jointes (selfies KYC, justificatifs domicile avec photo) : l'absence de données EXIF (modèle d'appareil, GPS, heure de prise de vue) indique une image générée ou recadrée numériquement.
Niveau 2 — Anomalies textuelles propres aux LLMs
Les modèles de langage comme GPT-4o ou Gemini produisent du texte statistiquement trop homogène : ni fautes de frappe, ni corrections manuscrites, ni variations stylistiques entre paragraphes. Ce signal, invisible à première lecture, se révèle à l'analyse de plusieurs champs du même document.
Signes à rechercher :
- Densité lexicale uniforme : un vrai bulletin de paie contient des abréviations métier, des codes conventions collectives, des intitulés de poste non standardisés. Un faux présente un texte « propre » sans jargon sectoriel authentique.
- Phrases de transition LLM : « Il convient de noter que », « En outre », « À cet égard » — constructions sur-représentées dans les textes génératifs par rapport aux documents officiels réels.
- Numéros de référence trop réguliers : les numéros de contrat, de facture ou de SIRET générés aléatoirement passent souvent la syntaxe mais échouent aux vérifications de clé de contrôle (SIRET : algorithme de Luhn ; IBAN : modulo 97).
- Dates cohérentes en surface mais impossibles en profondeur : un contrat signé « le 15 mars 2024 » mais dont la date de convention collective référencée date de 2025.
Niveau 3 — Signaux visuels et graphiques
Les outils de génération d'images (Midjourney, DALL·E, Stable Diffusion) et de mise en page automatique laissent des traces caractéristiques.
Selon l'EU AI Act (Règlement UE 2024/1689, art. 50), les contenus synthétiques doivent être marqués — mais cette obligation ne s'applique pas rétroactivement aux documents déjà générés.
Points de contrôle visuels :
- Alignement trop parfait : les documents imprimés et scannés présentent un léger angle de rotation (0,5 à 2°). Un document généré numériquement est parfaitement droit, sans distorsion de perspective.
- Résolution et compression incohérentes : logos en haute résolution sur un formulaire dont le corps du texte est flou, ou inversement.
- Tampons et signatures : un tampon officiel présente des irrégularités d'encrage, une légère déformation. Un tampon généré par IA est un cercle parfait avec une police parfaitement centrée.
- Textures de papier absentes : les photos de documents réels montrent le grain du papier, des reflets, des ombres portées. Les documents IA sont uniformément plats.
- Visages sur documents d'identité : peau trop lisse, symétrie faciale excessive, bords des cheveux trop nets — caractéristiques d'une image deepfake. Voir notre article sur la détection des deepfakes documentaires.
Prêt à automatiser vos vérifications ?
Pilote gratuit sur vos propres documents. Résultats en 48 h.
Demander un pilote gratuitNiveau 4 — Incohérences dans les données croisées
Un document ne peut pas être vérifié en isolation. La cohérence entre les champs internes et la réalité vérifiable constitue le test le plus difficile à passer pour un fraudeur.
Vérifications croisées essentielles :
- SIRET / SIREN : vérification via data.inpi.fr ou l'API Entreprise — le numéro doit exister, correspondre à l'entreprise nommée et être actif à la date du document
- Adresse : vérification via la Base Adresse Nationale — une adresse inexistante ou attribuée à une autre commune est un signal fort
- Numéro de TVA intracommunautaire : vérification via le système VIES de la Commission européenne
- RIB / IBAN : le code BIC doit correspondre à une banque réelle active en France ; l'IBAN passe le contrôle modulo 97
Tableau récapitulatif : signes par type de document
| Type de document | Signal prioritaire | Vérification recommandée |
|---|---|---|
| Bulletin de paie | Convention collective cohérente, cotisations selon taux légaux | Vérifier les taux URSSAF en vigueur à la date |
| Relevé bancaire | Solde initial = solde final période précédente | Croiser avec d'autres relevés du même compte |
| Facture fournisseur | SIRET valide, numéro TVA actif | API Entreprise + VIES |
| Pièce d'identité | Police de caractères officielle, zone MRZ cohérente | Comparer avec référentiels OACI |
| Justificatif de domicile | Adresse existante, logo fournisseur authentique | BAN + vérification visuelle du logo |
| Extrait Kbis | Greffe émetteur, SIREN valide, date d'immatriculation | Data INPI |
| Diplôme / attestation | Numéro de diplôme vérifiable, signature du recteur | Vérification auprès de l'établissement |
Procédure de vérification systématique
Les équipes conformité et KYC qui traitent un volume important de dossiers — notamment dans le cadre des obligations LCB-FT issues de la 5e directive anti-blanchiment (AMLD5) — ne peuvent pas appliquer manuellement l'intégralité de cette checklist à chaque document.
La procédure recommandée suit un modèle de triage à trois niveaux :
- Filtrage automatisé (niveau 1 + 4) : extraction de métadonnées et vérification de clés de contrôle via API — cette étape peut traiter des centaines de documents par heure
- Analyse forensique assistée (niveau 2 + 3) : examen visuel ciblé sur les documents signalés par le filtre automatique
- Vérification humaine renforcée : pour les dossiers à risque élevé, contre-appel auprès de l'organisme émetteur
Notre plateforme prend en charge plus de 3 200 types de documents dans 32 juridictions, ce qui permet une vérification comparative structurelle en temps réel — consultez la page de détection de documents IA pour voir comment cette couche de détection s'intègre à votre processus existant.
Pourquoi la détection humaine seule est insuffisante
Les outils IA génèrent désormais des documents qui passent la vérification visuelle de 80 % des analystes, selon les tests internes menés par plusieurs institutions financières européennes rapportés dans le cadre des travaux de l'ACPR. La clé de contrôle du SIRET, la structure de la zone MRZ d'un passeport, la cohérence des cotisations sociales sur un bulletin de paie — ces vérifications requièrent des calculs algorithmiques que l'œil humain ne peut pas effectuer en quelques secondes.
L'Europol Internet Organised Crime Threat Assessment (IOCTA) de 2024 signale une augmentation marquée des tentatives de fraude documentaire assistée par IA dans le secteur financier européen, ciblant particulièrement les processus d'onboarding digital et de crédit en ligne.
Pour aller plus loin sur les techniques de génération, voir notre analyse de comment l'IA génère de faux documents et les menaces liées aux LLMs comme ChatGPT.
L'automatisation de ces vérifications via une solution spécialisée — avec des solutions adaptées à votre secteur — réduit le taux de fraude non détectée tout en maintenant une expérience utilisateur fluide. Découvrez notre guide de vérification documentaire pour une vue d'ensemble des méthodes disponibles.
Questions fréquemment posées
Un outil de détection IA peut-il identifier tous les faux documents ?
Non. Les outils de détection IA atteignent des performances élevées sur les documents de type connu, mais restent limités face à des documents entièrement inédits ou générés avec des outils très récents. La détection multi-couche (métadonnées + structure + vérifications croisées) reste la méthode la plus robuste.
Un SIRET valide dans un document prouve-t-il son authenticité ?
Non. Un fraudeur peut copier un SIRET existant d'une vraie entreprise. La vérification doit croiser le SIRET avec le nom de l'entreprise, son adresse et son activité dans les registres officiels — pas seulement valider le format du numéro.
Les relevés bancaires PDF sont-ils faciles à falsifier avec l'IA ?
Oui. Les LLMs peuvent générer des relevés syntaxiquement cohérents en quelques secondes. Les signaux de falsification incluent : soldes non cumulatifs entre mois, références de transactions trop courtes ou trop longues, absence de numéros de référence bancaire au format SEPA.
Quelle est la réglementation applicable à la vérification de documents dans le cadre du KYC en France ?
Les obligations de vérification documentaire dans le cadre du KYC découlent de la transposition française de la 6e directive anti-blanchiment (AMLD6) — en cours de transposition — et des lignes directrices de l'ACPR. Toute entité assujettie doit conserver les preuves de vérification pendant cinq ans après la fin de la relation d'affaires.
Comment signaler un document suspect à TRACFIN ?
Toute entité assujettie doit transmettre une déclaration de soupçon via le portail ERMES de TRACFIN dès lors qu'un document laisse supposer une opération de blanchiment ou de financement du terrorisme. La détection d'un document généré par IA peut constituer un indice suffisant pour déclencher cette procédure.
Restez informé
Recevez nos analyses conformité et guides pratiques, directement dans votre boîte mail.