Guide9 min de lecture

Checklist : signes qu'un document a été généré ou modifié par l'IA

12 signaux concrets — métadonnées, texte, visuels, données croisées — pour identifier un document fabriqué ou altéré par une IA. Guide pratique pour équipes conformité.

L'équipe CheckFile·29 juin 2026

Illustration for Checklist : signes qu'un document a été généré ou modifié par l'IA — Guide

Résumer cet article avec

Un document généré ou altéré par une IA présente des traces caractéristiques réparties sur quatre niveaux : métadonnées du fichier, structure textuelle, cohérence visuelle et vérifiabilité des données. Cette checklist recense les 12 signaux les plus fiables, classés par difficulté de falsification, pour aider les équipes conformité, KYC et crédit à filtrer les dossiers suspects avant toute décision.

Selon le rapport ACFE 2024 Report to the Nations, seulement 37 % des fraudes documentaires sont détectées manuellement, avec un délai moyen de 87 jours. Les outils d'IA générative ont réduit ce délai de détection à quelques secondes pour un fraudeur expérimenté — ce qui rend la vérification systématique indispensable.

Niveau 1 — Métadonnées du fichier : vérification en 90 secondes

Les métadonnées sont la première zone à inspecter, car la plupart des générateurs d'IA les négligent ou les remplissent de façon incohérente.

Dans un PDF authentique émis par un organisme officiel, les métadonnées reflètent la chaîne de production du document (logiciel métier, imprimante, signature numérique institutionnelle). Un document généré par IA affiche typiquement un outil grand public comme ChatGPT PDF Export, Canva, PDFCreator 5.x ou un outil Python (reportlab, fpdf) dans le champ Producer ou Creator — source : analyse ENISA Threat Landscape 2024.

Champs à contrôler systématiquement :

Creator / Producer : doit correspondre au logiciel institutionnel attendu (ex. : Microsoft Word pour un contrat de travail, SAP pour une fiche de paie d'une grande entreprise)
CreationDate vs ModDate : un écart de quelques secondes est suspect ; les documents légitimes conservent un historique de modifications
Author : souvent laissé vide ou rempli d'un identifiant générique dans les documents fabriqués
XMP metadata : absence totale dans les documents générés par des outils bas de gamme

Sur les photos jointes (selfies KYC, justificatifs domicile avec photo) : l'absence de données EXIF (modèle d'appareil, GPS, heure de prise de vue) indique une image générée ou recadrée numériquement.

Niveau 2 — Anomalies textuelles propres aux LLMs

Les modèles de langage comme GPT-4o ou Gemini produisent du texte statistiquement trop homogène : ni fautes de frappe, ni corrections manuscrites, ni variations stylistiques entre paragraphes. Ce signal, invisible à première lecture, se révèle à l'analyse de plusieurs champs du même document.

Signes à rechercher :

Densité lexicale uniforme : un vrai bulletin de paie contient des abréviations métier, des codes conventions collectives, des intitulés de poste non standardisés. Un faux présente un texte « propre » sans jargon sectoriel authentique.
Phrases de transition LLM : « Il convient de noter que », « En outre », « À cet égard » — constructions sur-représentées dans les textes génératifs par rapport aux documents officiels réels.
Numéros de référence trop réguliers : les numéros de contrat, de facture ou de SIRET générés aléatoirement passent souvent la syntaxe mais échouent aux vérifications de clé de contrôle (SIRET : algorithme de Luhn ; IBAN : modulo 97).
Dates cohérentes en surface mais impossibles en profondeur : un contrat signé « le 15 mars 2024 » mais dont la date de convention collective référencée date de 2025.

Niveau 3 — Signaux visuels et graphiques

Les outils de génération d'images (Midjourney, DALL·E, Stable Diffusion) et de mise en page automatique laissent des traces caractéristiques.

Selon l'EU AI Act (Règlement UE 2024/1689, art. 50), les contenus synthétiques doivent être marqués — mais cette obligation ne s'applique pas rétroactivement aux documents déjà générés.

Points de contrôle visuels :

Alignement trop parfait : les documents imprimés et scannés présentent un léger angle de rotation (0,5 à 2°). Un document généré numériquement est parfaitement droit, sans distorsion de perspective.
Résolution et compression incohérentes : logos en haute résolution sur un formulaire dont le corps du texte est flou, ou inversement.
Tampons et signatures : un tampon officiel présente des irrégularités d'encrage, une légère déformation. Un tampon généré par IA est un cercle parfait avec une police parfaitement centrée.
Textures de papier absentes : les photos de documents réels montrent le grain du papier, des reflets, des ombres portées. Les documents IA sont uniformément plats.
Visages sur documents d'identité : peau trop lisse, symétrie faciale excessive, bords des cheveux trop nets — caractéristiques d'une image deepfake. Voir notre article sur la détection des deepfakes documentaires.

Prêt à automatiser vos vérifications ?

Pilote gratuit sur vos propres documents. Résultats en 48 h.

Demander un pilote gratuit

Niveau 4 — Incohérences dans les données croisées

Un document ne peut pas être vérifié en isolation. La cohérence entre les champs internes et la réalité vérifiable constitue le test le plus difficile à passer pour un fraudeur.

Vérifications croisées essentielles :

SIRET / SIREN : vérification via data.inpi.fr ou l'API Entreprise — le numéro doit exister, correspondre à l'entreprise nommée et être actif à la date du document
Adresse : vérification via la Base Adresse Nationale — une adresse inexistante ou attribuée à une autre commune est un signal fort
Numéro de TVA intracommunautaire : vérification via le système VIES de la Commission européenne
RIB / IBAN : le code BIC doit correspondre à une banque réelle active en France ; l'IBAN passe le contrôle modulo 97

Tableau récapitulatif : signes par type de document

Type de document	Signal prioritaire	Vérification recommandée
Bulletin de paie	Convention collective cohérente, cotisations selon taux légaux	Vérifier les taux URSSAF en vigueur à la date
Relevé bancaire	Solde initial = solde final période précédente	Croiser avec d'autres relevés du même compte
Facture fournisseur	SIRET valide, numéro TVA actif	API Entreprise + VIES
Pièce d'identité	Police de caractères officielle, zone MRZ cohérente	Comparer avec référentiels OACI
Justificatif de domicile	Adresse existante, logo fournisseur authentique	BAN + vérification visuelle du logo
Extrait Kbis	Greffe émetteur, SIREN valide, date d'immatriculation	Data INPI
Diplôme / attestation	Numéro de diplôme vérifiable, signature du recteur	Vérification auprès de l'établissement

Procédure de vérification systématique

Les équipes conformité et KYC qui traitent un volume important de dossiers — notamment dans le cadre des obligations LCB-FT issues de la 5e directive anti-blanchiment (AMLD5) — ne peuvent pas appliquer manuellement l'intégralité de cette checklist à chaque document.

La procédure recommandée suit un modèle de triage à trois niveaux :

Filtrage automatisé (niveau 1 + 4) : extraction de métadonnées et vérification de clés de contrôle via API — cette étape peut traiter des centaines de documents par heure
Analyse forensique assistée (niveau 2 + 3) : examen visuel ciblé sur les documents signalés par le filtre automatique
Vérification humaine renforcée : pour les dossiers à risque élevé, contre-appel auprès de l'organisme émetteur

Notre plateforme prend en charge plus de 3 200 types de documents dans 32 juridictions, ce qui permet une vérification comparative structurelle en temps réel — consultez la page de détection de documents IA pour voir comment cette couche de détection s'intègre à votre processus existant.

Pourquoi la détection humaine seule est insuffisante

Les outils IA génèrent désormais des documents qui passent la vérification visuelle de 80 % des analystes, selon les tests internes menés par plusieurs institutions financières européennes rapportés dans le cadre des travaux de l'ACPR. La clé de contrôle du SIRET, la structure de la zone MRZ d'un passeport, la cohérence des cotisations sociales sur un bulletin de paie — ces vérifications requièrent des calculs algorithmiques que l'œil humain ne peut pas effectuer en quelques secondes.

L'Europol Internet Organised Crime Threat Assessment (IOCTA) de 2024 signale une augmentation marquée des tentatives de fraude documentaire assistée par IA dans le secteur financier européen, ciblant particulièrement les processus d'onboarding digital et de crédit en ligne.

Pour aller plus loin sur les techniques de génération, voir notre analyse de comment l'IA génère de faux documents et les menaces liées aux LLMs comme ChatGPT.

L'automatisation de ces vérifications via une solution spécialisée — avec des solutions adaptées à votre secteur — réduit le taux de fraude non détectée tout en maintenant une expérience utilisateur fluide. Découvrez notre guide de vérification documentaire pour une vue d'ensemble des méthodes disponibles.

Questions fréquemment posées

Un outil de détection IA peut-il identifier tous les faux documents ?

Non. Les outils de détection IA atteignent des performances élevées sur les documents de type connu, mais restent limités face à des documents entièrement inédits ou générés avec des outils très récents. La détection multi-couche (métadonnées + structure + vérifications croisées) reste la méthode la plus robuste.

Un SIRET valide dans un document prouve-t-il son authenticité ?

Non. Un fraudeur peut copier un SIRET existant d'une vraie entreprise. La vérification doit croiser le SIRET avec le nom de l'entreprise, son adresse et son activité dans les registres officiels — pas seulement valider le format du numéro.

Les relevés bancaires PDF sont-ils faciles à falsifier avec l'IA ?

Oui. Les LLMs peuvent générer des relevés syntaxiquement cohérents en quelques secondes. Les signaux de falsification incluent : soldes non cumulatifs entre mois, références de transactions trop courtes ou trop longues, absence de numéros de référence bancaire au format SEPA.

Quelle est la réglementation applicable à la vérification de documents dans le cadre du KYC en France ?

Les obligations de vérification documentaire dans le cadre du KYC découlent de la transposition française de la 6e directive anti-blanchiment (AMLD6) — en cours de transposition — et des lignes directrices de l'ACPR. Toute entité assujettie doit conserver les preuves de vérification pendant cinq ans après la fin de la relation d'affaires.

Comment signaler un document suspect à TRACFIN ?

Toute entité assujettie doit transmettre une déclaration de soupçon via le portail ERMES de TRACFIN dès lors qu'un document laisse supposer une opération de blanchiment ou de financement du terrorisme. La détection d'un document généré par IA peut constituer un indice suffisant pour déclencher cette procédure.

Restez informé

Recevez nos analyses conformité et guides pratiques, directement dans votre boîte mail.

Prêt à automatiser vos vérifications ?

Pilote gratuit sur vos propres documents. Résultats en 48 h.

Checklist : signes qu'un document a été généré ou modifié par l'IA

Niveau 1 — Métadonnées du fichier : vérification en 90 secondes

Niveau 2 — Anomalies textuelles propres aux LLMs

Niveau 3 — Signaux visuels et graphiques

Niveau 4 — Incohérences dans les données croisées

Tableau récapitulatif : signes par type de document

Procédure de vérification systématique

Pourquoi la détection humaine seule est insuffisante

Questions fréquemment posées

Un outil de détection IA peut-il identifier tous les faux documents ?

Un SIRET valide dans un document prouve-t-il son authenticité ?

Les relevés bancaires PDF sont-ils faciles à falsifier avec l'IA ?

Quelle est la réglementation applicable à la vérification de documents dans le cadre du KYC en France ?

Comment signaler un document suspect à TRACFIN ?

Restez informé

Prêt à automatiser vos vérifications ?

Articles associés

Faux documents LLM et ChatGPT : la nouvelle menace fraude

Comment l'IA génère de faux documents — et comment les détecter

Détection de vivacité vs fraude documentaire : quelles différences ?