Document Intelligence
PII-Anonymisierung. Vertragsschwärzung. Signaturerkennung.
Dokumente DSGVO-konform mit KI verarbeiten - ohne personenbezogene Daten preiszugeben. Roundtrip-Pseudonymisierung für LLM-Input, regelbasierte Schwärzung für Weitergabe, automatische Signaturerkennung für Vertragsmanagement.
Das Problem: Personenbezogene Daten in jedem Dokument
Unternehmen wollen Dokumente mit KI verarbeiten - Verträge analysieren, Belege klassifizieren, Policys abfragen. Aber jedes Dokument enthält personenbezogene Daten: Namen, Gehälter, Sozialversicherungsnummern, Adressen, Bankverbindungen, Unterschriften.
An ein Sprachmodell - auch an ein selbst gehostetes - dürfen diese Daten nicht ungeschützt. Die DSGVO verlangt Datensparsamkeit. Betriebsvereinbarungen schränken die Verarbeitung personenbezogener Mitarbeiterdaten ein. Geschäftsgeheimnisse in Verträgen dürfen Dritte nicht sehen.
Die bisherigen Lösungen sind unbefriedigend: Manuelle Schwärzung in Adobe Acrobat - zeitaufwendig, fehleranfällig, und oft nur optisch (der Text bleibt unter dem schwarzen Balken erhalten). Oder Verzicht auf KI-Verarbeitung sensibler Dokumente - was den größten Teil des Produktivitätsgewinns zunichte macht.
Drei Capabilities
PII-Anonymisierung für LLM-Input
Roundtrip-Pseudonymisierung: Personenbezogene Daten werden vor dem LLM-Input durch konsistente Pseudonyme ersetzt. Der Output wird re-anonymisiert - die echten Daten erscheinen nur im Ergebnis, nie im Modell. Die Zuordnungstabelle verlässt nie den Pre-Processing Layer.
DetailsVertragsschwärzung
Regelbasierte Schwärzung für unterschiedliche Empfänger. Derselbe Vertrag wird für Betriebsrat, Due Diligence oder externe Berater unterschiedlich geschwärzt - gesteuert durch versionierte Schwärzungsregeln im Decision Layer. Echte Schwärzung, nicht nur optisch.
DetailsSignaturerkennung
Automatische Erkennung von Unterschriftenfeldern und vorhandenen Unterschriften in Dokumenten. Massenprüfung von Vertragsarchiven, Onboarding-Qualitätsprüfung, Audit-Vorbereitung. Anomalien werden an Menschen eskaliert - nie autonom akzeptiert.
DetailsPII-Anonymisierung: Roundtrip-Pseudonymisierung für LLM-Input
Die meisten PII-Tools am Markt sind Einweg-Schwärzung - sie entfernen Daten. Für die Verarbeitung mit Sprachmodellen reicht das nicht. Wenn ein Agent einen Vertrag analysieren soll, braucht er den Kontext: "Mitarbeiter X hat Gehalt Y an Standort Z." Ohne diesen Kontext kann das Modell keine sinnvolle Bewertung abgeben.
Die Gosign-Lösung ist Roundtrip-Pseudonymisierung: Daten werden vor dem Modell pseudonymisiert, vom Modell verarbeitet, und im Ergebnis re-anonymisiert. Das Modell sieht nur Pseudonyme. Das Ergebnis enthält die echten Daten.
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ Dokument │ │ PII-Erkennung │ │ Pseudonym- │ │ Sprachmodell │ │ Re-Mapping │
│ (Original) │────▶│ & Klassifi- │────▶│ isierung │────▶│ verarbeitet │────▶│ Pseudonyme │
│ │ │ zierung │ │ │ │ nur Pseudonyme │ │ → Echtdaten│
└─────────────┘ └──────────────────┘ └──────────────┘ └──────────────────┘ └─────────────┘
│ │ │
▼ ▼ ▼
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Decision │ │ Mapping- │ │ Ergebnis │
│ Layer: │ │ Tabelle │◀─────────────────────────────│ mit echten │
│ Was wird │ │ (bleibt │ Rück-Zuordnung │ Daten │
│ anonymisiert│ │ lokal) │ └──────────────┘
└──────────────┘ └──────────────┘
Entscheidungsschritte im PII-Prozess
| Micro-Entscheidung | Wer entscheidet | Warum |
|---|---|---|
| PII-Kategorien definieren | Mensch + Regelwerk | DSGVO-Vorgaben, Betriebsvereinbarung, kundenspezifisch |
| PII im Dokument erkennen | KI (NER + Pattern) | Named Entity Recognition + regelbasierte Muster |
| Falsch-Positive prüfen | KI, bei Unsicherheit Mensch | Confidence Routing - "Müller" als Name oder Firmenname? |
| Pseudonyme zuweisen | Automatisch | Konsistente Zuordnung, "Person_A" statt "Max Müller" |
| Pseudonymisiertes Dokument ans Modell | Automatisch | Keine Entscheidung, reine Weiterleitung |
| Output re-anonymisieren | Automatisch | Mapping-Tabelle rückwärts anwenden |
| Audit: Was wurde anonymisiert | Automatisch | DSGVO-Nachweis im Audit Trail |
Die Zuordnungstabelle (Pseudonym → Echtdaten) verlässt nie den Pre-Processing Layer. Sie wird nach Abschluss der Verarbeitung gelöscht - oder für einen definierten Zeitraum aufbewahrt, je nach Konfiguration. Das Sprachmodell sieht zu keinem Zeitpunkt personenbezogene Daten.
Vertragsschwärzung: Regelbasiert, empfängerabhängig, physisch
Verträge müssen regelmäßig in anonymisierter Form weitergegeben werden - an Wirtschaftsprüfer, an potenzielle Käufer bei Due Diligence, an den Betriebsrat, an externe Berater. Heute macht das jemand manuell. Das dauert Stunden pro Vertrag, ist fehleranfällig, und die Schwärzung ist oft nur optisch: Der Text bleibt unter dem schwarzen Balken erhalten. Ein häufig unterschätztes Datenleck.
Die Gosign-Lösung: Der Document Agent erkennt Vertragsstruktur - Parteien, Beträge, Laufzeiten, Klauseln, Unterschriften. Der Decision Layer definiert empfängerabhängig, was geschwärzt wird:
| Vertragselement | Betriebsrat | Due Diligence | Externer Berater | Wirtschaftsprüfer |
|---|---|---|---|---|
| Vertragsparteien (Namen) | ✓ Sichtbar | ✗ Geschwärzt | ✗ Geschwärzt | ✓ Sichtbar |
| Vertragswerte / Beträge | ✓ Sichtbar | ✓ Sichtbar | ✗ Geschwärzt | ✓ Sichtbar |
| Gehälter / Vergütung | ✓ Sichtbar | Aggregiert | ✗ Geschwärzt | ✓ Sichtbar |
| Vertragsklauseln | ✓ Sichtbar | ✓ Sichtbar | Nur Klauseltypen | ✓ Sichtbar |
| Geschäftsgeheimnisse | ✗ Geschwärzt | ✓ Sichtbar | ✗ Geschwärzt | ✓ Sichtbar |
| Unterschriften | ✗ Geschwärzt | ✗ Geschwärzt | ✗ Geschwärzt | ✓ Sichtbar |
Die Schwärzungsregeln sind versioniert im Decision Layer. Wenn sich die Anforderungen ändern - neuer Empfängerkreis, andere Betriebsvereinbarung, geänderte Compliance-Regel - entsteht eine neue Regelversion. Die alte bleibt nachvollziehbar.
Physische Schwärzung: Das PDF wird neu gerendert. Die Originaldaten sind physisch nicht mehr im Dokument enthalten. Kein Copy-Paste unter schwarzen Balken, kein PDF-Editing zum Freilegen. Das ist keine Kosmetik - es ist kryptographisch sauber.
Signaturerkennung: Unterschriften finden, prüfen, dokumentieren
Vertragsmanagement, Audit-Vorbereitung, Compliance-Prüfung - überall muss regelmäßig geprüft werden: Ist das Dokument unterschrieben? Wo ist die Unterschrift? Fehlt eine Gegenzeichnung? Bei 5.000 Verträgen im Archiv ist das manuell nicht leistbar.
Signature Detection - Unterschriften finden
Der Document Agent erkennt Unterschriftenfelder und vorhandene Unterschriften in gescannten Dokumenten und PDFs. Computer Vision, kein Sprachmodell - spezialisierte ML-Modelle für Bildanalyse. Der Output ist strukturiert: Seite, Position, Konfidenz dass eine Unterschrift vorhanden ist.
Massenprüfung Vertragsarchiv: "In welchen der 5.000 Verträge fehlt die Gegenzeichnung?" - Ergebnis in Minuten statt Wochen.
Onboarding-Qualitätsprüfung: "Sind alle Pflichtdokumente des neuen Mitarbeiters unterschrieben?" - Automatische Checkliste, fehlende Unterschriften werden als Workflow-Aufgabe eskaliert.
Audit-Vorbereitung: "Zeige alle Dokumente ohne Unterschrift im Zeitraum Q3 2025." - Strukturierte Exportliste für den Prüfer.
┌─────────────┐ ┌──────────────────┐ ┌──────────────────┐
│ Dokument │ │ Signatur- │ │ Vergleich mit │
│ mit Unter- │────▶│ erkennung │────▶│ Referenz- │
│ schrift │ │ (Position, │ │ unterschrift │
│ │ │ Konfidenz) │ │ │
└─────────────┘ └──────────────────┘ └──────────────────┘
│
┌───────────┼───────────┐
▼ ▼ ▼
┌────────────┐ ┌────────┐ ┌────────────┐
│ Hohe │ │Mittlere│ │ Niedrige │
│ Überein- │ │Überein-│ │ Überein- │
│ stimmung │ │stimmung│ │ stimmung │
└────────────┘ └────────┘ └────────────┘
│ │ │
▼ ▼ ▼
Automatisch Eskalation Blockierung
akzeptiert, an Sach- Menschliche
dokumentiert bearbeiter Prüfung
mit Ver- Pflicht
gleichs-
ansicht
Wichtig: Der Signaturvergleich ist ein Anomalie-Detektor, kein Fälschungsdetektor. Unterschriften variieren natürlich - Tagesform, Stift, Untergrund. Das System erkennt Auffälligkeiten und eskaliert sie an einen Menschen. Es behauptet nie "diese Unterschrift ist gefälscht" oder "diese Unterschrift ist echt". Das wäre unseriös.
Der Decision Layer: Wer entscheidet was anonymisiert, geschwärzt oder eskaliert wird?
Der Decision Layer zerlegt jeden Dokumentenprozess in einzelne Entscheidungsschritte. Für jeden Schritt ist definiert: Mensch, Regelwerk oder KI.
| Prozess | Micro-Entscheidung | Wer entscheidet | Warum |
|---|---|---|---|
| PII | Welche Datenfelder sind PII? | Regelwerk | DSGVO Art. 4, Betriebsvereinbarung |
| PII | Ist "Müller" ein Name oder eine Firma? | KI, bei <80% Konfidenz: Mensch | NER-Ambiguität - Falsch-Positive vermeiden |
| PII | Pseudonymisierungsmethode wählen | Regelwerk | Konsistente Pseudonyme vs. Zufallswerte |
| Schwärzung | Welcher Empfängerkreis? | Mensch | Fachliche Entscheidung, nicht automatisierbar |
| Schwärzung | Welche Felder werden geschwärzt? | Regelwerk | Empfängerabhängige Schwärzungsmatrix |
| Schwärzung | Unbekannter Klauseltyp erkannt | Mensch | Neue Klauseltypen müssen klassifiziert werden |
| Signatur | Unterschrift vorhanden? | KI | Computer Vision mit Konfidenzwert |
| Signatur | Stimmt Signatur mit Referenz überein? | KI + Mensch bei Anomalie | Hohe Übereinstimmung: akzeptiert. Anomalie: eskaliert |
| Signatur | Keine Referenz vorhanden | Mensch | Neue Referenzunterschrift muss erfasst werden |
| Alle | Audit Trail dokumentieren | Automatisch | Jede Entscheidung unveränderlich protokolliert |
Integration
Document Intelligence ist eine Capability des bestehenden Document Agent - keine separate Software. Die Integration erfolgt über dieselben Schnittstellen:
- SAP DMS, SAP ArchiveLink - Verträge und Belege aus SAP-Archiven
- SharePoint, OneDrive - Dokumentenmanagement via Microsoft Graph
- E-Mail-Eingänge (IMAP/Exchange) - Anhänge automatisch verarbeiten
- Dateisystem-Watcher - Lokale Verzeichnisse überwachen
- REST API - Für kundenspezifische DMS-Systeme
Die Document-Intelligence-Capabilities werden pro Mandant konfiguriert: Welche PII-Kategorien erkannt werden, welche Schwärzungsregeln gelten, welche Referenz-Signaturen hinterlegt sind. Alles versioniert, alles im Decision Layer.
Business Impact
DSGVO-konforme LLM-Verarbeitung: Dokumente mit personenbezogenen Daten können erstmals sicher mit Sprachmodellen verarbeitet werden - ohne Datenschutzrisiko.
Vertragsschwärzung in Minuten statt Stunden: Regelbasiert, empfängerabhängig, physisch sicher. Ein Vertrag, der manuell 2 Stunden dauert, wird in Sekunden verarbeitet.
Signaturlücken proaktiv erkennen: Fehlende Unterschriften werden gefunden bevor der Prüfer fragt - nicht danach.
Audit-Nachweis für Datenschutz: Der Audit Trail dokumentiert jede Anonymisierung, jede Schwärzung, jede Signaturprüfung. Bei einer DSGVO-Anfrage oder Betriebsprüfung ist nachweisbar, welche Daten wann wie verarbeitet wurden.
Kein neues Tool: Document Intelligence ist Teil der bestehenden Agent-Architektur. Kein zusätzlicher Vendor, keine zusätzliche Lizenz, keine zusätzliche Schulung.
Vertiefung im Agent Briefing
Unsere Fachartikel-Serie für Entscheider, die AI Agents im Unternehmen einführen.
Häufige Fragen zu Document Intelligence
Was ist der Unterschied zwischen Anonymisierung und Pseudonymisierung?
Anonymisierung entfernt personenbezogene Daten unwiderruflich - die Zuordnung zur Person ist nicht mehr möglich. Pseudonymisierung ersetzt die Daten durch Pseudonyme, die Zuordnung bleibt über eine separate Tabelle möglich. Für LLM-Verarbeitung nutzen wir Pseudonymisierung mit anschließender Re-Anonymisierung: Das Modell sieht nur Pseudonyme, das Ergebnis enthält wieder die echten Daten.
Funktioniert die PII-Erkennung auch für gescannte Dokumente?
Ja. Gescannte Dokumente werden zuerst per OCR in maschinenlesbaren Text umgewandelt. Anschließend durchläuft der Text dieselbe PII-Erkennung wie digitale Dokumente. Die Erkennungsgenauigkeit hängt von der Scan-Qualität ab - bei Standardscans (300 DPI) liegt die OCR-Genauigkeit bei über 99%.
Ist die Vertragsschwärzung wirklich sicher?
Ja. Anders als bei manueller Schwärzung in PDF-Editoren wird das Dokument physisch neu gerendert. Die geschwärzten Inhalte sind nicht mehr im Dokument enthalten - weder als Text, noch als Metadaten, noch als unsichtbare Layer. Das ist kryptographisch verifizierbar.
Kann der Signaturvergleich Fälschungen erkennen?
Der Signaturvergleich erkennt Anomalien - Abweichungen von einer Referenzunterschrift. Bei Auffälligkeiten wird automatisch an einen Menschen eskaliert. Das System behauptet nie, eine Unterschrift sei gefälscht oder echt. Diese Entscheidung trifft ein Mensch. Das ist der einzige seriöse Ansatz.
Welche Dokumente sollen geschützt verarbeitet werden?
PII-Anonymisierung, Vertragsschwärzung oder Signaturerkennung - wir starten mit einem konkreten Dokumententyp.