Skip to content
KundenreferenzPreiseSicherheitVergleichBlog

Europe

Americas

Oceania

Automatisierung6 min Lesezeit

Generative KI vs. Extraktion: Dokumentenprüfung im Vergleich

GPT-4, Claude, OCR, IDP: Welche Technologie prüft Geschäftsdokumente? Ehrlicher Vergleich von Stärken, Schwächen und dem Fall für hybride Architektur.

Dr. Katrin Hoffmann, Expertin für regulatorische Compliance
Dr. Katrin Hoffmann, Expertin für regulatorische Compliance·
Illustration for Generative KI vs. Extraktion: Dokumentenprüfung im Vergleich — Automatisierung

Diesen Artikel zusammenfassen mit

Die Debatte zwischen generativer KI und traditioneller Extraktionstechnologie für die Dokumentenprüfung hat einen kritischen Wendepunkt erreicht. Da LLMs wie GPT-4 und Claude Bildfähigkeiten erlangen, gehen viele Engineering-Teams davon aus, dass sie Legacy-OCR-Pipelines vollständig ersetzen können. Die Realität ist differenzierter – und die Risiken einer falschen Architekturentscheidung bemessen sich in regulatorischem Risiko, finanziellem Verlust und Monaten verschwendeter Entwicklung. Dieser Artikel bietet einen ehrlichen, technischen Vergleich beider Ansätze und erklärt, warum hybride Architektur der einzige gangbare Weg für produktive Dokumentenprüfung ist.

Nein, GPT-4 kann Ihre Finanzierungsvorgänge nicht allein prüfen

LLMs halluzinieren bei numerischen Feldern mit einer Fehlerrate von 1–3 % — in einem Finanzierungsworkflow kann ein einzelner Transpositionsfehler (125.000 € statt 152.000 €) einen Kredit gegen den falschen Betrag freigeben.

Der EU AI Act (Verordnung (EU) 2024/1689, anwendbar ab August 2026) stuft KI-Systeme für die Bonitätsbewertung als Hochrisiko-KI ein (Anhang III Nr. 5b); LLMs ohne deterministische Regel-Engine erfüllen die Anforderungen an Auditierbarkeit und Reproduzierbarkeit nicht. (EUR-Lex EU AI Act) In einem Finanzierungsworkflow könnte dieser einzelne Fehler einen Kredit gegen den falschen Betrag freigeben.

Legacy-OCR-Pipelines extrahieren Zeichen mit hoher Genauigkeit, verstehen aber nichts. Sie werden „Ausstellungsdatum: 14.02.2026" korrekt transkribieren, ohne zu wissen, ob dieses Datum das Dokument abgelaufen oder irrelevant macht.

Zuverlässige Dokumentenprüfung erfordert eine hybride Architektur, die die Stärken beider Technologien kombiniert und ihre strukturellen Schwächen kompensiert.

Die 3 Technologieschichten der Dokumentenverarbeitung

Drei Technologieschichten decken unterschiedliche Fähigkeitslücken ab — keine einzelne Schicht reicht für zuverlässige, auditierbare Dokumentenprüfung in regulierten Umgebungen aus.

Die BaFin-Auslegungs- und Anwendungshinweise zum GwG (aktualisiert November 2024) verlangen von verpflichteten Instituten angemessene technologische Mittel zur Verifizierung von Dokumenten und Identitäten; manuelle Prüfung allein ist nicht mehr als angemessen anerkannt. (BaFin GwG-Hinweise 2024)

Schicht 1: OCR und Extraktions-Engines

Die Arbeitspferde der Dokumentendigitalisierung. Tesseract (Open Source), AWS Textract, Google Document AI und Azure AI Document Intelligence wandeln Pixel in strukturierten Text um. Moderne Engines erreichen 98–99 % Zeichenerkennungsrate bei sauberen Scans. Ihre Limitation ist semantische Blindheit.

Schicht 2: Klassisches Intelligent Document Processing (IDP)

Plattformen wie ABBYY Vantage, Kofax und Hyperscience fügen eine Klassifizierungs- und Feldextraktionsschicht über OCR hinzu. Sie repräsentieren den aktuellen Enterprise-Standard – zuverlässig, auditierbar, aber starr.

Schicht 3: Generative KI (LLMs mit Vision)

GPT-4V, Claude, Gemini – Large Language Models mit Bildfähigkeiten, die Dokumente lesen, interpretieren und darüber schlussfolgern können. Sie bringen echtes kontextuelles Verständnis. Ihre Limitation ist das Gegenteil von OCR: Sie verstehen Bedeutung, können aber keine Präzision bei spezifischen Werten garantieren.

Was generative KI gut macht

Generative KI übertrifft klassische OCR bei Klassifizierung (>97 %), Kontextverständnis und mehrsprachiger Verarbeitung — versagt aber bei präziser Betragsextraktion und arithmetischer Verifizierung.

Aufgabe Leistung Warum es funktioniert
Dokumentenklassifizierung Ausgezeichnet (>97 %) LLMs generalisieren aus Kontext
Kontextverständnis Ausgezeichnet Semantisches Reasoning
Unstrukturierte Feldextraktion Gut (85–92 %) Handhabt Freiformate, Handschrift
Fragebeantwortung zu Dokumenten Ausgezeichnet Natürlichsprachliche Schnittstelle
Mehrsprachige Verarbeitung Ausgezeichnet Ein Modell für 50+ Sprachen

Was generative KI schlecht macht

Bei Rechnungen mit mehr als 10 Positionen liegt die LLM-Fehlerrate bei arithmetischen Verifizierungen zwischen 15–20 %; bei der Betragsextraktion beträgt die numerische Fehlerrate 1–3 %.

Präzise Betragsextraktion: Halluzinationen sind keine Bugs

LLMs sind probabilistische Textgeneratoren. Bei der Extraktion von „1.250,00 €" aus einer gescannten Rechnung liest das Modell die Zahl nicht – es prognostiziert die wahrscheinlichste Token-Sequenz. Das bedeutet: Ziffernvertauschung (1.250 € wird zu 1.520 €), Rundung und Approximation, Währungsverwechslung.

Arithmetische Verifizierung: LLMs prognostizieren, rechnen aber nicht

LLMs führen keine Arithmetik aus. Sie prognostizieren, wie die Antwort „aussehen sollte". Die Fehlerrate bei Rechnungen mit mehr als 10 Positionen liegt bei 15–20 %.

Dokumentenübergreifende Konsistenz: Nicht für N-Dokument-Vergleich konzipiert

LLMs verarbeiten Dokumente sequentiell oder in begrenzten Kontextfenstern. Sie sind architektonisch nicht darauf ausgelegt, einen strukturierten Zustand über N Dokumente aufrechtzuerhalten.

Reproduzierbarkeit: Gleiches Dokument, unterschiedliche Ergebnisse

Dasselbe Dokument zehnmal durch eine LLM-Pipeline laufen lassen ergibt leicht unterschiedliche Ergebnisse. Für Prüfpfade ist das ein Problem. Aufsichtsbehörden erwarten deterministische Ergebnisse.

Auditierbarkeit: Nachträgliche Erklärung ist keine deterministische Logik

In regulierten Branchen (Banken, Versicherungen, Leasing) müssen Prüfteams jede Entscheidung auf eine spezifische Regel zurückführen können. Der EU AI Act (Verordnung 2024/1689) verstärkt diese Anforderung durch Transparenz- und Erklärbarkeitsmandate für KI-Hochrisikosysteme.

Die Geschäftsregel-Engine: Das fehlende Stück

Deterministische Geschäftslogik ist die Schicht, die weder OCR noch LLMs bieten — und die einzige, die die von Aufsichtsbehörden wie der BaFin geforderte Reproduzierbarkeit und Auditierbarkeit garantiert.

Beispielregel für Finanzierung: Der Finanzierungsbetrag im Leasingvertrag muss dem Betrag im Lieferantenangebot entsprechen, mit einer Toleranz von 1 €.

Diese Regel hat drei entscheidende Eigenschaften: Sie ist deterministisch (gleiche Eingaben = gleiches Ergebnis), auditierbar (Entscheidung rückverfolgbar zu spezifischer Regel) und konfigurierbar (Toleranz änderbar ohne Modell-Retraining).

Die hybride Architektur

Hybride Architektur kombiniert die Stärken aller drei Technologieschichten: generative KI für Klassifizierung, spezialisierte OCR für präzise Extraktion und eine deterministische Regel-Engine für verifizierbare Prüfentscheidungen.

Dokumenteneingabe
      |
[SCHICHT 1: Generative KI] — Klassifizierung, Layout-Verständnis, Anomalie-Screening
      |
[SCHICHT 2: Spezialisierte OCR] — Feldgenaue Extraktion, zeichengenaue Daten
      |
[SCHICHT 3: Regel-Engine] — Dokumentenübergreifende Prüfungen, Arithmetik, Schwellenwerte
      |
[SCHICHT 4: Externe APIs] — Handelsregisterabfrage, Sanktionslisten, Datenbankverifizierung
      |
   Entscheidung (Genehmigt / Prüfung / Abgelehnt)

Endvergleich

Kriterium OCR allein Klassisches IDP LLM allein Hybride Architektur
Extraktionsgenauigkeit (Beträge, Daten) Hoch (98 %+) Hoch (96–99 %) Mittel (80–92 %) Sehr hoch (99 %+)
Dokumentenverständnis Keines Eingeschränkt Ausgezeichnet Ausgezeichnet
Dokumentenübergreifende Validierung Keine Einfach Unzuverlässig Umfassend
Auditierbarkeit Voll (deterministisch) Voll (deterministisch) Niedrig (probabilistisch) Voll (Regel-Engine-Schicht)
Anpassbarkeit an neue Dokumententypen Entwicklung nötig Retraining (Wochen) Sofort (Zero-Shot) Schnell (Tage)
Regulatorische Compliance-Readiness Teilweise Gut Allein unzureichend Vollständig

Häufig gestellte Fragen

Kann ich ChatGPT oder Claude in Produktion zur Dokumentenprüfung einsetzen?

Nicht als eigenständige Lösung. LLMs halluzinieren bei Beträgen (1–3 % numerische Fehlerrate) und garantieren keine reproduzierbaren Ergebnisse. Zuverlässige Prüfung erfordert die Kombination eines LLM mit spezialisierter OCR und einer deterministischen Regel-Engine.

Was ist eine hybride Architektur für Dokumentenprüfung?

Eine Verarbeitungspipeline mit vier komplementären Schichten: generative KI für Klassifizierung und Verständnis, spezialisierte OCR für präzise numerische Extraktion, eine Geschäftsregel-Engine für deterministische Prüfungen und externe APIs für Abgleich mit amtlichen Datenbanken.

Warum können LLMs keine Geschäftsregel-Engines ersetzen?

Ein LLM prognostiziert das wahrscheinlichste Ergebnis; eine Regel-Engine führt deterministische Logik aus. Für kritische Prüfungen (Vertragsbetrag = Vereinbarungsbetrag, Handelsregisterauszug unter 3 Monate alt) garantiert nur eine Regel-Engine die von Aufsichtsbehörden geforderte Reproduzierbarkeit und Auditierbarkeit.

CheckFile: Von Anfang an hybrid gebaut

CheckFile wurde von Grund auf als hybride Architektur konzipiert: generative KI für Klassifizierung und Verständnis, spezialisierte Extraktion für Präzision, eine deterministische Regel-Engine für Validierung und externe API-Integration für Anreicherung.

Entdecken Sie unsere Dokumentenprüfungsplattform oder prüfen Sie unsere Preise.

Weiterführende Lektüre: Wie hybride Architektur in der Praxis funktioniert, erfahren Sie in unserem Artikel zur dokumentenübergreifenden Validierung jenseits von OCR. Den Business Case quantifizieren Sie mit unserer Analyse der wahren Kosten manueller Dokumentenprüfung.

Bereit, Ihre Prüfungen zu automatisieren?

Kostenloses Pilotprojekt mit Ihren eigenen Dokumenten. Ergebnisse in 48h.