Skip to content
Cas clientTarifsSécuritéComparatifBlog

Europe

Americas

Oceania

Guide11 min de lecture

Faux documents LLM et ChatGPT : la nouvelle menace fraude

ChatGPT et les LLM génèrent des faux documents textuels indétectables à l'œil nu. Comprendre cette menace, ses vecteurs et les méthodes de détection pour protéger votre organisation.

L'équipe CheckFile
L'équipe CheckFile·
Illustration for Faux documents LLM et ChatGPT : la nouvelle menace fraude — Guide

Résumer cet article avec

Les grands modèles de langage (LLM) comme ChatGPT, GPT-4o ou Claude ont introduit un vecteur de fraude documentaire radicalement nouveau : la génération de faux textuels cohérents, grammaticalement parfaits et contextuellement plausibles, sans aucune trace de copier-coller ou d'édition manuelle détectable. Là où les anciens faussaires retouchaient des images avec Photoshop, les fraudeurs de 2026 dictent leurs bulletins de paie, contrats de travail et relevés bancaires à un chatbot. Ce guide examine les mécanismes de cette menace, les documents les plus ciblés et les stratégies de détection adaptées.

Cet article est fourni à titre informatif. Les exigences réglementaires évoluent — consultez l'ACPR ou un juriste spécialisé pour votre situation spécifique.

Pourquoi les LLM transforment la fraude documentaire

Les LLM sont fondamentalement différents des modèles génératifs d'images (GAN, Stable Diffusion). Ils ne manipulent pas des pixels — ils produisent du texte structuré, des chiffres cohérents et des mises en forme professionnelles à la demande. Un fraudeur peut générer un bulletin de paie fictif pour un CDI à 3 500 €/mois en moins de deux minutes, sans aucune compétence graphique. Les sorties respectent la syntaxe réglementaire française, utilisent les bons codes SIRET et calculent les cotisations URSSAF de manière plausible.

Selon le rapport ENISA Threat Landscape 2024, la fraude assistée par IA figure désormais parmi les cinq principales menaces pesant sur les organisations européennes. Le rapport souligne spécifiquement la montée des contenus textuels synthétiques dans les flux de vérification d'identité et de crédit.

L'ACPR (Autorité de contrôle prudentiel et de résolution) a alerté les établissements financiers, dans sa communication de décembre 2025, sur l'augmentation des tentatives d'onboarding utilisant des justificatifs entièrement construits par IA — notamment des fiches de paie et des avis d'imposition synthétiques.

Ce qui distingue les LLM des techniques précédentes

Technique Vecteur Détection traditionnelle Difficulté 2026
Retouche Photoshop Pixels modifiés ELA, métadonnées EXIF Facile à détecter
Templates PDF modifiés Champs texte remplacés Analyse PDF, métadonnées Modérée
GAN / Stable Diffusion Images synthétiques Artefacts visuels, cohérence Difficile
LLM (ChatGPT, GPT-4o) Texte entièrement généré Aucun artefact classique Très difficile

Les contrôles OCR classiques lisent le texte — ils ne détectent pas qu'il a été généré par un LLM. Les contrôles de métadonnées repèrent les PDF modifiés — pas les documents créés de toutes pièces. C'est le vide que la fraude LLM exploite.

Les documents les plus ciblés par la fraude LLM

Bulletins de paie et justificatifs de revenus

Le bulletin de paie est le document le plus fréquemment falsifié via LLM dans les dossiers de crédit immobilier, de leasing et de location. Un LLM peut générer un bulletin complet avec :

  • Raison sociale et adresse employeur fictifs (mais syntaxiquement corrects)
  • SIRET à 14 chiffres généré de manière plausible
  • Cotisations URSSAF calculées selon les taux 2026
  • Convention collective référencée (par ex. IDCC 1090 pour le commerce de détail)
  • Cumuls annuels cohérents avec la période

Selon l'ACFE (Association of Certified Fraud Examiners), rapport 2024, 87 jours est le délai médian de détection d'une fraude documentaire non détectée à l'entrée — un chiffre qui illustre le coût de ne pas bloquer ces faux dès l'onboarding.

Contrats de travail et promesses d'embauche

Les LLM génèrent des contrats CDI ou CDD complets, avec clause de confidentialité, période d'essai et éléments de rémunération cohérents avec le secteur cible. Ces documents ne contiennent aucun artefact graphique suspect — ils sont rédigés de zéro.

Relevés bancaires synthétiques

Plus complexes à générer de façon cohérente, les relevés bancaires produits par LLM présentent néanmoins des flux de trésorerie plausibles, avec virements réguliers correspondant au salaire déclaré. Les fraudeurs combinent souvent un template PDF légitime avec un contenu généré par LLM.

Avis d'imposition et justificatifs fiscaux

L'avis d'imposition sur le revenu (formulaire 2042) est particulièrement ciblé dans les dossiers de location, où il sert à établir la solvabilité du locataire. Un LLM peut produire des textes cohérents avec les règles fiscales françaises en vigueur, notamment les tranches IRPP 2026.

Comment détecter les documents générés par LLM

Analyse linguistique et cohérence textuelle

La détection des textes LLM repose sur des signaux statistiques absents des documents humains authentiques :

  • Perplexité uniforme : les LLM produisent des textes à entropie basse, sans les variations de registre et les imperfections stylistiques des vrais documents RH
  • Absence de variations typographiques : les vrais documents contiennent des espaces insécables, des apostrophes courbes, des ligatures — que les LLM n'insèrent pas systématiquement
  • Cohérence excessive : un bulletin de paie généré par IA présente une perfection calculatoire suspecte, sans les arrondis ou erreurs habituels des logiciels de paie réels

Vérification de cohérence inter-documents

La vraie valeur de la détection se situe dans la validation croisée : un bulletin de paie LLM mentionnera un employeur dont l'adresse ne correspond pas aux données Sirene (INSEE), ou un SIRET dont le code APE est incohérent avec le secteur déclaré. Ces signaux ne sont pas détectables document par document — ils nécessitent une vérification systémique.

CheckFile déploie une couche additionnelle de signaux de génération IA en complément des contrôles structurels existants, ajustée selon le niveau de risque sectoriel. Cette approche combine l'analyse forensique du document avec la validation croisée de données tierces (Sirene, Infogreffe, bases de données bancaires).

Pour en savoir plus sur les techniques de détection forensique IA, consultez notre guide sur la détection de fraude documentaire par IA et notre article sur comment l'IA génère de faux documents.

Signaux forensiques spécifiques aux LLM

Signal Description Méthode de détection
Répétition sémantique Formulations quasi-identiques sur plusieurs documents Analyse de similarité vectorielle
Chiffres ronds suspects Salaires à la centaine exacte, cotisations parfaitement rondes Contrôle statistique des décimales
SIRET invalide ou inactif Numéro plausible mais non enregistré au Répertoire Sirene API Sirene / INSEE
Adresse inexistante Adresse syntaxiquement correcte mais non géolocalisable API BAN (Base Adresse Nationale)
Incohérence convention collective Code IDCC incompatible avec le secteur ou la taille d'entreprise Référentiel DARES

Prêt à automatiser vos vérifications ?

Pilote gratuit sur vos propres documents. Résultats en 48 h.

Demander un pilote gratuit

Cadre réglementaire : ce que les régulateurs exigent

Obligations LCB-FT et vigilance KYC

L'ordonnance n° 2016-1635 du 1er décembre 2016 transposant la 4e directive anti-blanchiment impose aux entités assujetties de vérifier l'identité de leurs clients sur la base de documents fiables, probants et à jour. La 5e directive AML (UE 2018/843) a renforcé ces obligations en incluant explicitement les risques liés aux nouvelles technologies.

À partir du 10 juillet 2027, la 6e directive AML (AMLD6) étendra ces obligations aux prestataires de services crypto, aux plateformes de crowdfunding et à d'autres catégories nouvelles. L'AMLD6 introduit également un concept de vérification renforcée pour les documents produits par voie électronique, ce qui inclut implicitement les documents générés par IA.

Tracfin et les signalements liés à la fraude documentaire IA

Tracfin, la cellule de renseignement financier française, a inclus dans son rapport annuel 2025 une catégorie spécifique relative aux déclarations de soupçon liées à des documents présentant des incohérences caractéristiques d'une génération artificielle. Les entités assujetties sont tenues de déclarer tout soupçon de fraude documentaire, y compris lorsqu'il résulte d'une analyse forensique plutôt que d'une preuve tangible.

Responsabilité des organismes prêteurs et bailleurs

Pour les établissements de crédit soumis à la supervision de l'ACPR, la validation insuffisante de pièces justificatives synthétiques peut constituer un manquement aux obligations de connaissance client (KYC), exposant l'entité à des sanctions administratives. La recommandation 2023-R-02 de l'ACPR sur la maîtrise des risques liés à l'IA fournit un cadre d'appréciation des dispositifs de contrôle.

Mettre en place une défense efficace

Étape 1 : Cartographier les vecteurs d'entrée des documents

Tous les canaux par lesquels des documents entrent dans votre organisation sont des vecteurs potentiels : portail client en ligne, e-mail, scan physique, API partenaire. Les documents soumis via des portails numériques — qui permettent de coller du texte directement — sont plus exposés que les scans de documents physiques.

Étape 2 : Implémenter la validation croisée systématique

Un contrôle de cohérence entre le bulletin de paie et les données publiques (Sirene, Infogreffe, données sectorielles INSEE) détecte la majorité des faux LLM, car ces modèles ne peuvent pas accéder en temps réel aux référentiels publics français.

Étape 3 : Ajouter une couche de détection des signaux IA

Les outils de détection de contenu généré par IA (analyse de perplexité, burstiness, empreinte stylistique) appliqués aux documents textuels permettent de scorer le risque LLM de chaque pièce. Cette couche ne remplace pas les contrôles classiques — elle les complète.

Découvrez comment CheckFile intègre ces contrôles dans votre workflow pour identifier les signaux de génération IA sans ralentir l'expérience utilisateur. Notre page sécurité et conformité détaille l'architecture de contrôle utilisée pour les documents soumis en temps réel.

Étape 4 : Former les équipes de conformité

Les analystes KYC doivent être formés à reconnaître les indicateurs visuels et textuels des documents LLM. Des quiz réguliers sur des exemples réels (anonymisés) maintiennent la vigilance. Les équipes spécialisées signalent sur les forums professionnels que la perfection typographique est désormais un signal d'alerte, à l'inverse d'il y a dix ans.

Ce que disent les praticiens

Les responsables conformité échangeant sur des forums spécialisés soulèvent régulièrement deux questions :

"Comment distinguer un document Word converti en PDF d'un document généré par LLM ?" La réponse technique : l'analyse des métadonnées PDF (ProductID, DateCreated, ModifiedDate) et de l'empreinte de police révèle souvent l'outil utilisé. Un document Word converti conserve des traces de la suite Microsoft Office — un document LLM généré puis mis en forme par code Python laisse une empreinte radicalement différente.

"Les LLM font-ils des erreurs prévisibles ?" Oui — les LLM tendent à produire des chiffres cohérents en apparence mais statistiquement improbables (trop de salaires ronds, absence de variation annuelle dans les cumuls). Ils génèrent aussi des formulations RH standardisées absentes des vrais bulletins de paie de PME.

Pour approfondir votre dispositif de vérification, consultez notre guide complet de vérification documentaire et notre page dédiée à la détection de documents deepfake et IA.

Questions fréquemment posées

Les LLM peuvent-ils vraiment générer des bulletins de paie convaincants ?

Oui. Les LLM de 2026 (GPT-4o, Claude 3.5, Gemini 1.5 Pro) produisent des bulletins de paie syntaxiquement corrects avec cotisations URSSAF calculées selon les taux en vigueur. La mise en forme PDF peut ensuite être générée par code, rendant le document visuellement indiscernable d'un original. La détection requiert une analyse forensique et une validation croisée des données employeur.

Quelle différence entre fraude LLM et deepfake visuel ?

Les deepfakes visuels manipulent des images (GAN, Stable Diffusion) et laissent des artefacts détectables par ELA (Error Level Analysis) ou analyse de cohérence pixel. Les faux LLM sont entièrement textuels — aucun artefact visuel, aucune manipulation d'image. Ils nécessitent une analyse linguistique et une validation de cohérence sémantique plutôt qu'une analyse forensique visuelle.

Les contrôles OCR traditionnels suffisent-ils ?

Non. L'OCR lit le contenu textuel mais ne détecte pas l'origine du texte. Un bulletin de paie généré par LLM passe tous les contrôles OCR car son contenu textuel est syntaxiquement correct. La détection requiert des analyses complémentaires : perplexité linguistique, cohérence des chiffres, validation des référentiels tiers.

Quelles sont les obligations réglementaires en cas de faux document détecté ?

Les entités assujetties à la LCB-FT (établissements de crédit, assureurs, notaires, agents immobiliers) ont l'obligation de déclarer à Tracfin tout soupçon de fraude documentaire, y compris lorsqu'il résulte d'une détection forensique. Le refus d'entrée en relation ou la rupture de la relation d'affaires est systématiquement recommandé lorsque la fraude est confirmée.

Quelle est la responsabilité de l'organisation si elle accepte un faux LLM ?

La responsabilité dépend du secteur et du cadre réglementaire. Pour les établissements de crédit, accepter un faux document dans un dossier de crédit constitue potentiellement un manquement aux obligations KYC supervisées par l'ACPR, passible de sanctions administratives. Pour les bailleurs non professionnels, la responsabilité est moindre mais le préjudice financier (impayés, procédure d'expulsion) est direct.

Restez informé

Recevez nos analyses conformité et guides pratiques, directement dans votre boîte mail.

Prêt à automatiser vos vérifications ?

Pilote gratuit sur vos propres documents. Résultats en 48 h.