Document Intelligence

PII-Anonymisierung. Vertragsschwärzung. Signaturerkennung.

Dokumente DSGVO-konform mit KI verarbeiten - ohne personenbezogene Daten preiszugeben. Roundtrip-Pseudonymisierung für LLM-Input, regelbasierte Schwärzung für Weitergabe, automatische Signaturerkennung für Vertragsmanagement.

Gespräch vereinbaren Referenz-Architektur

Das Problem: Personenbezogene Daten in jedem Dokument

Unternehmen wollen Dokumente mit KI verarbeiten - Verträge analysieren, Belege klassifizieren, Policys abfragen. Aber jedes Dokument enthält personenbezogene Daten: Namen, Gehälter, Sozialversicherungsnummern, Adressen, Bankverbindungen, Unterschriften.

An ein Sprachmodell - auch an ein selbst gehostetes - dürfen diese Daten nicht ungeschützt. Die DSGVO verlangt Datensparsamkeit. Betriebsvereinbarungen schränken die Verarbeitung personenbezogener Mitarbeiterdaten ein. Geschäftsgeheimnisse in Verträgen dürfen Dritte nicht sehen.

Die bisherigen Lösungen sind unbefriedigend: Manuelle Schwärzung in Adobe Acrobat - zeitaufwendig, fehleranfällig, und oft nur optisch (der Text bleibt unter dem schwarzen Balken erhalten). Oder Verzicht auf KI-Verarbeitung sensibler Dokumente - was den größten Teil des Produktivitätsgewinns zunichte macht.

Drei Capabilities

PII-Anonymisierung für LLM-Input

Roundtrip-Pseudonymisierung: Personenbezogene Daten werden vor dem LLM-Input durch konsistente Pseudonyme ersetzt. Der Output wird re-anonymisiert - die echten Daten erscheinen nur im Ergebnis, nie im Modell. Die Zuordnungstabelle verlässt nie den Pre-Processing Layer.

Details

Vertragsschwärzung

Regelbasierte Schwärzung für unterschiedliche Empfänger. Derselbe Vertrag wird für Betriebsrat, Due Diligence oder externe Berater unterschiedlich geschwärzt - gesteuert durch versionierte Schwärzungsregeln im Decision Layer. Echte Schwärzung, nicht nur optisch.

Details

Signaturerkennung

Automatische Erkennung von Unterschriftenfeldern und vorhandenen Unterschriften in Dokumenten. Massenprüfung von Vertragsarchiven, Onboarding-Qualitätsprüfung, Audit-Vorbereitung. Anomalien werden an Menschen eskaliert - nie autonom akzeptiert.

Details

PII-Anonymisierung: Roundtrip-Pseudonymisierung für LLM-Input

Die meisten PII-Tools am Markt sind Einweg-Schwärzung - sie entfernen Daten. Für die Verarbeitung mit Sprachmodellen reicht das nicht. Wenn ein Agent einen Vertrag analysieren soll, braucht er den Kontext: "Mitarbeiter X hat Gehalt Y an Standort Z." Ohne diesen Kontext kann das Modell keine sinnvolle Bewertung abgeben.

Die Gosign-Lösung ist Roundtrip-Pseudonymisierung: Daten werden vor dem Modell pseudonymisiert, vom Modell verarbeitet, und im Ergebnis re-anonymisiert. Das Modell sieht nur Pseudonyme. Das Ergebnis enthält die echten Daten.

┌─────────────┐     ┌──────────────────┐     ┌─────────────┐     ┌──────────────────┐     ┌─────────────┐
│  Dokument   │     │  PII-Erkennung   │     │  Pseudonym-  │     │  Sprachmodell    │     │  Re-Mapping │
│  (Original) │────▶│  & Klassifi-     │────▶│  isierung    │────▶│  verarbeitet     │────▶│  Pseudonyme │
│             │     │  zierung         │     │              │     │  nur Pseudonyme  │     │  → Echtdaten│
└─────────────┘     └──────────────────┘     └──────────────┘     └──────────────────┘     └─────────────┘
│                        │                                            │
▼                        ▼                                            ▼
┌──────────────┐         ┌──────────────┐                              ┌──────────────┐
│  Decision    │         │  Mapping-    │                              │  Ergebnis    │
│  Layer:      │         │  Tabelle     │◀─────────────────────────────│  mit echten  │
│  Was wird    │         │  (bleibt     │   Rück-Zuordnung            │  Daten       │
│  anonymisiert│         │  lokal)      │                              └──────────────┘
└──────────────┘         └──────────────┘

Entscheidungsschritte im PII-Prozess

Micro-Entscheidung	Wer entscheidet	Warum
PII-Kategorien definieren	Mensch + Regelwerk	DSGVO-Vorgaben, Betriebsvereinbarung, kundenspezifisch
PII im Dokument erkennen	KI (NER + Pattern)	Named Entity Recognition + regelbasierte Muster
Falsch-Positive prüfen	KI, bei Unsicherheit Mensch	Confidence Routing - "Müller" als Name oder Firmenname?
Pseudonyme zuweisen	Automatisch	Konsistente Zuordnung, "Person_A" statt "Max Müller"
Pseudonymisiertes Dokument ans Modell	Automatisch	Keine Entscheidung, reine Weiterleitung
Output re-anonymisieren	Automatisch	Mapping-Tabelle rückwärts anwenden
Audit: Was wurde anonymisiert	Automatisch	DSGVO-Nachweis im Audit Trail

Die Zuordnungstabelle (Pseudonym → Echtdaten) verlässt nie den Pre-Processing Layer. Sie wird nach Abschluss der Verarbeitung gelöscht - oder für einen definierten Zeitraum aufbewahrt, je nach Konfiguration. Das Sprachmodell sieht zu keinem Zeitpunkt personenbezogene Daten.

Vertragsschwärzung: Regelbasiert, empfängerabhängig, physisch

Verträge müssen regelmäßig in anonymisierter Form weitergegeben werden - an Wirtschaftsprüfer, an potenzielle Käufer bei Due Diligence, an den Betriebsrat, an externe Berater. Heute macht das jemand manuell. Das dauert Stunden pro Vertrag, ist fehleranfällig, und die Schwärzung ist oft nur optisch: Der Text bleibt unter dem schwarzen Balken erhalten. Ein häufig unterschätztes Datenleck.

Die Gosign-Lösung: Der Document Agent erkennt Vertragsstruktur - Parteien, Beträge, Laufzeiten, Klauseln, Unterschriften. Der Decision Layer definiert empfängerabhängig, was geschwärzt wird:

Vertragselement	Betriebsrat	Due Diligence	Externer Berater	Wirtschaftsprüfer
Vertragsparteien (Namen)	✓ Sichtbar	✗ Geschwärzt	✗ Geschwärzt	✓ Sichtbar
Vertragswerte / Beträge	✓ Sichtbar	✓ Sichtbar	✗ Geschwärzt	✓ Sichtbar
Gehälter / Vergütung	✓ Sichtbar	Aggregiert	✗ Geschwärzt	✓ Sichtbar
Vertragsklauseln	✓ Sichtbar	✓ Sichtbar	Nur Klauseltypen	✓ Sichtbar
Geschäftsgeheimnisse	✗ Geschwärzt	✓ Sichtbar	✗ Geschwärzt	✓ Sichtbar
Unterschriften	✗ Geschwärzt	✗ Geschwärzt	✗ Geschwärzt	✓ Sichtbar

Die Schwärzungsregeln sind versioniert im Decision Layer. Wenn sich die Anforderungen ändern - neuer Empfängerkreis, andere Betriebsvereinbarung, geänderte Compliance-Regel - entsteht eine neue Regelversion. Die alte bleibt nachvollziehbar.

Physische Schwärzung: Das PDF wird neu gerendert. Die Originaldaten sind physisch nicht mehr im Dokument enthalten. Kein Copy-Paste unter schwarzen Balken, kein PDF-Editing zum Freilegen. Das ist keine Kosmetik - es ist kryptographisch sauber.

Signaturerkennung: Unterschriften finden, prüfen, dokumentieren

Vertragsmanagement, Audit-Vorbereitung, Compliance-Prüfung - überall muss regelmäßig geprüft werden: Ist das Dokument unterschrieben? Wo ist die Unterschrift? Fehlt eine Gegenzeichnung? Bei 5.000 Verträgen im Archiv ist das manuell nicht leistbar.

Signature Detection - Unterschriften finden

Der Document Agent erkennt Unterschriftenfelder und vorhandene Unterschriften in gescannten Dokumenten und PDFs. Computer Vision, kein Sprachmodell - spezialisierte ML-Modelle für Bildanalyse. Der Output ist strukturiert: Seite, Position, Konfidenz dass eine Unterschrift vorhanden ist.

Massenprüfung Vertragsarchiv: "In welchen der 5.000 Verträge fehlt die Gegenzeichnung?" - Ergebnis in Minuten statt Wochen.

Onboarding-Qualitätsprüfung: "Sind alle Pflichtdokumente des neuen Mitarbeiters unterschrieben?" - Automatische Checkliste, fehlende Unterschriften werden als Workflow-Aufgabe eskaliert.

Audit-Vorbereitung: "Zeige alle Dokumente ohne Unterschrift im Zeitraum Q3 2025." - Strukturierte Exportliste für den Prüfer.

┌─────────────┐     ┌──────────────────┐     ┌──────────────────┐
│  Dokument   │     │  Signatur-       │     │  Vergleich mit   │
│  mit Unter- │────▶│  erkennung       │────▶│  Referenz-       │
│  schrift    │     │  (Position,      │     │  unterschrift    │
│             │     │   Konfidenz)     │     │                  │
└─────────────┘     └──────────────────┘     └──────────────────┘
│
┌───────────┼───────────┐
▼           ▼           ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│  Hohe      │ │Mittlere│ │  Niedrige  │
│  Überein-  │ │Überein-│ │  Überein-  │
│  stimmung  │ │stimmung│ │  stimmung  │
└────────────┘ └────────┘ └────────────┘
│              │           │
▼              ▼           ▼
Automatisch    Eskalation   Blockierung
akzeptiert,    an Sach-     Menschliche
dokumentiert   bearbeiter   Prüfung
mit Ver-     Pflicht
gleichs-
ansicht

Wichtig: Der Signaturvergleich ist ein Anomalie-Detektor, kein Fälschungsdetektor. Unterschriften variieren natürlich - Tagesform, Stift, Untergrund. Das System erkennt Auffälligkeiten und eskaliert sie an einen Menschen. Es behauptet nie "diese Unterschrift ist gefälscht" oder "diese Unterschrift ist echt". Das wäre unseriös.

Der Decision Layer: Wer entscheidet was anonymisiert, geschwärzt oder eskaliert wird?

Der Decision Layer zerlegt jeden Dokumentenprozess in einzelne Entscheidungsschritte. Für jeden Schritt ist definiert: Mensch, Regelwerk oder KI.

Prozess	Micro-Entscheidung	Wer entscheidet	Warum
PII	Welche Datenfelder sind PII?	Regelwerk	DSGVO Art. 4, Betriebsvereinbarung
PII	Ist "Müller" ein Name oder eine Firma?	KI, bei <80% Konfidenz: Mensch	NER-Ambiguität - Falsch-Positive vermeiden
PII	Pseudonymisierungsmethode wählen	Regelwerk	Konsistente Pseudonyme vs. Zufallswerte
Schwärzung	Welcher Empfängerkreis?	Mensch	Fachliche Entscheidung, nicht automatisierbar
Schwärzung	Welche Felder werden geschwärzt?	Regelwerk	Empfängerabhängige Schwärzungsmatrix
Schwärzung	Unbekannter Klauseltyp erkannt	Mensch	Neue Klauseltypen müssen klassifiziert werden
Signatur	Unterschrift vorhanden?	KI	Computer Vision mit Konfidenzwert
Signatur	Stimmt Signatur mit Referenz überein?	KI + Mensch bei Anomalie	Hohe Übereinstimmung: akzeptiert. Anomalie: eskaliert
Signatur	Keine Referenz vorhanden	Mensch	Neue Referenzunterschrift muss erfasst werden
Alle	Audit Trail dokumentieren	Automatisch	Jede Entscheidung unveränderlich protokolliert

Integration

Document Intelligence ist eine Capability des bestehenden Document Agent - keine separate Software. Die Integration erfolgt über dieselben Schnittstellen:

SAP DMS, SAP ArchiveLink - Verträge und Belege aus SAP-Archiven
SharePoint, OneDrive - Dokumentenmanagement via Microsoft Graph
E-Mail-Eingänge (IMAP/Exchange) - Anhänge automatisch verarbeiten
Dateisystem-Watcher - Lokale Verzeichnisse überwachen
REST API - Für kundenspezifische DMS-Systeme

Die Document-Intelligence-Capabilities werden pro Mandant konfiguriert: Welche PII-Kategorien erkannt werden, welche Schwärzungsregeln gelten, welche Referenz-Signaturen hinterlegt sind. Alles versioniert, alles im Decision Layer.

Business Impact

DSGVO-konforme LLM-Verarbeitung: Dokumente mit personenbezogenen Daten können erstmals sicher mit Sprachmodellen verarbeitet werden - ohne Datenschutzrisiko.

Vertragsschwärzung in Minuten statt Stunden: Regelbasiert, empfängerabhängig, physisch sicher. Ein Vertrag, der manuell 2 Stunden dauert, wird in Sekunden verarbeitet.

Signaturlücken proaktiv erkennen: Fehlende Unterschriften werden gefunden bevor der Prüfer fragt - nicht danach.

Audit-Nachweis für Datenschutz: Der Audit Trail dokumentiert jede Anonymisierung, jede Schwärzung, jede Signaturprüfung. Bei einer DSGVO-Anfrage oder Betriebsprüfung ist nachweisbar, welche Daten wann wie verarbeitet wurden.

Kein neues Tool: Document Intelligence ist Teil der bestehenden Agent-Architektur. Kein zusätzlicher Vendor, keine zusätzliche Lizenz, keine zusätzliche Schulung.

Vertiefung im Agent Briefing

Unsere Fachartikel-Serie für Entscheider, die AI Agents im Unternehmen einführen.

Infrastructure

RAG & Document Intelligence: Wie KI Ihre Dokumente versteht

Governance

PII-Anonymisierung für Enterprise AI

Governance

Datensicherheit bei KI - Data Residency, DSGVO und EU AI Act

Häufige Fragen zu Document Intelligence

Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?

Anonymisierung entfernt personenbezogene Daten unwiderruflich - die Zuordnung zur Person ist nicht mehr möglich. Pseudonymisierung ersetzt die Daten durch Pseudonyme, die Zuordnung bleibt über eine separate Tabelle möglich. Für LLM-Verarbeitung nutzen wir Pseudonymisierung mit anschließender Re-Anonymisierung: Das Modell sieht nur Pseudonyme, das Ergebnis enthält wieder die echten Daten.

Funktioniert die PII-Erkennung auch für gescannte Dokumente?

Ja. Gescannte Dokumente werden zuerst per OCR in maschinenlesbaren Text umgewandelt. Anschließend durchläuft der Text dieselbe PII-Erkennung wie digitale Dokumente. Die Erkennungsgenauigkeit hängt von der Scan-Qualität ab - bei Standardscans (300 DPI) liegt die OCR-Genauigkeit bei über 99%.

Ist die Vertragsschwärzung wirklich sicher?

Ja. Anders als bei manueller Schwärzung in PDF-Editoren wird das Dokument physisch neu gerendert. Die geschwärzten Inhalte sind nicht mehr im Dokument enthalten - weder als Text, noch als Metadaten, noch als unsichtbare Layer. Das ist kryptographisch verifizierbar.

Kann der Signaturvergleich Fälschungen erkennen?

Der Signaturvergleich erkennt Anomalien - Abweichungen von einer Referenzunterschrift. Bei Auffälligkeiten wird automatisch an einen Menschen eskaliert. Das System behauptet nie, eine Unterschrift sei gefälscht oder echt. Diese Entscheidung trifft ein Mensch. Das ist der einzige seriöse Ansatz.

Welche Dokumente sollen geschützt verarbeitet werden?

PII-Anonymisierung, Vertragsschwärzung oder Signaturerkennung - wir starten mit einem konkreten Dokumententyp.