Anonimizacja PII dla Enterprise AI
Jak przetwarzać dokumenty z danymi osobowymi zgodnie z RODO przy pomocy AI? Pseudonimizacja roundtrip, Decision Layer, Audit Trail.
Dlaczego dane osobowe stanowią problem przy przetwarzaniu przez AI
Gdy agent AI analizuje umowę o pracę, sprawdza listę płac lub przetwarza zwolnienie lekarskie, operuje na danych osobowych. Imię i nazwisko, adres, data urodzenia, numer PESEL, wynagrodzenie, diagnoza.
W skrócie - Anonimizacja PII dla Enterprise AI
- Pseudonimizacja roundtrip zastępuje PII spójnymi pseudonimami przed przetwarzaniem przez LLM, a następnie przywraca prawdziwe dane w wynikach.
- Decision Layer steruje, które kategorie PII są wykrywane w danym procesie (HR, finanse, compliance) - poprzez wersjonowane zestawy reguł.
- Pseudonimizacja zachowuje strukturę i kontekst dokumentu - w przeciwieństwie do zamazywania, które czyni dokumenty bezużytecznymi dla analizy AI.
- Confidence Routing eskaluje niejednoznaczne encje do człowieka; ukryte identyfikatory wymagają reguł kontekstowych w zestawie reguł.
- IAPP (2024) stwierdza, że 58% organizacji przetwarzających dokumenty z AI nie posiada systematycznego wykrywania PII - narażając się na egzekwowanie RODO.
Przesyłanie tych danych do modelu językowego, nawet hostowanego lokalnie, jest problematyczne z punktu widzenia ochrony danych. RODO wymaga minimalizacji danych (art. 5 ust. 1 lit. c): przetwarzane mogą być wyłącznie dane niezbędne do realizacji celu. Do klasyfikacji typu dokumentu model nie potrzebuje nazwiska pracownika. Do weryfikacji zgodności z siatką płac nie potrzebuje daty urodzenia.
Jednocześnie model potrzebuje kontekstu. Umowa pozbawiona wszelkich informacji o osobach jest bezwartościowa dla analizy AI, brakuje w niej odniesień, relacji i powiązań.
Rozwiązaniem nie jest zamazywanie, lecz pseudonimizacja.
Pseudonimizacja roundtrip: zasada działania
Pseudonimizacja roundtrip to proces trzyetapowy:
Krok 1: Rozpoznanie i zastąpienie. Warstwa pre-processingu rozpoznaje wszystkie dane osobowe w dokumencie. Każda instancja PII jest zastępowana spójnym pseudonimem: “Jan Kowalski” staje się “Osoba_A”, “12 000 PLN” staje się “Wynagrodzenie_A”, “ul. Marszałkowska 8” staje się “Adres_A”. Kluczowe: pseudonimy są spójne. Jeśli “Jan Kowalski” pojawia się ponownie na stronie 3, nadal jest “Osoba_A”. To zachowuje strukturę dokumentu.
Krok 2: Przetworzenie. Spseudominizowany dokument trafia do modelu językowego. Model widzi: “Osoba_A ma Wynagrodzenie_A pod Adres_A. Umowa obowiązuje do 2027 roku.” Może przeprowadzić analizę umowy, weryfikację siatki płac, klasyfikację klauzul, nie widząc nigdy prawdziwego nazwiska ani wynagrodzenia.
Krok 3: Re-anonimizacja. Wynik modelu zawiera pseudonimy: “Osoba_A mieści się w grupie zaszeregowania E3.” Warstwa re-anonimizacji zastępuje pseudonimy prawdziwymi danymi: “Jan Kowalski mieści się w grupie zaszeregowania E3.” Tabela przyporządkowań jest usuwana po zakończeniu przetwarzania.
Co steruje Decision Layer
Nie każde pole danych wymaga pseudonimizacji. Decision Layer definiuje, które kategorie PII są rozpoznawane i zastępowane, na podstawie wersjonowanego zestawu reguł:
W procesie HR: pseudonimizacja imion i nazwisk, wynagrodzeń, adresów, numerów PESEL. Stanowiska i działy mogą pozostać, są istotne dla analizy i nie stanowią danych osobowych.
W procesie finansowym: nazwy firm pozostają, dane kontaktowe osób są pseudonimizowane, kwoty pozostają (są istotne dla decyzji księgowych), dane bankowe są pseudonimizowane.
W procesie compliance: pseudonimizacja wszystkiego, łącznie z nazwami firm, jeśli analiza ma być międzydziałowa.
Te reguły są specyficzne dla danego mandanta i wersjonowane. Gdy zmienia się porozumienie zakładowe, powstaje nowa wersja reguł. Podczas kontroli można prześledzić, jaka reguła PII w jakiej wersji obowiązywała w momencie przetwarzania.
Ograniczenia i uczciwa ocena
Rozpoznawanie PII nie jest perfekcyjne. Named Entity Recognition (NER) popełnia błędy, szczególnie w przypadku:
Niejednoznacznych nazw: “Kowalski” może być nazwiskiem lub nazwą firmy. “Warszawa” może być miastem lub częścią nazwy własnej. Decision Layer adresuje to poprzez Confidence Routing: przy wysokim poziomie pewności pseudonimizacja następuje automatycznie. Przy niskim poziomie pewności sprawa jest eskalowana do człowieka.
Ukrytych identyfikatorów: “Jedyna programistka w oddziale w Krakowie” nie zawiera jawnych danych PII, ale umożliwia identyfikację osoby. Takie pośrednie identyfikatory są trudne do automatycznego wykrycia. Podejście: reguły kontekstowe w zestawie reguł definiują kombinacje cech umożliwiające identyfikację.
Nowych typów dokumentów: gdy pojawia się nowy typ dokumentu, zestaw reguł PII musi być zweryfikowany i ewentualnie rozszerzony. To nie jest jednorazowa konfiguracja, lecz ciągły proces.
| Kategoria PII | Proces HR | Proces finansowy | Proces compliance |
|---|---|---|---|
| Imiona i nazwiska | Pseudonimizowane | Osoby kontaktowe pseudonimizowane | Wszystko pseudonimizowane |
| Wynagrodzenia / Kwoty | Pseudonimizowane | Pozostają (decyzje księgowe) | Pseudonimizowane |
| Adresy | Pseudonimizowane | Pozostają | Pseudonimizowane |
| Numery identyfikacyjne (PESEL) | Pseudonimizowane | Pseudonimizowane | Pseudonimizowane |
| Nazwy firm | Pozostają | Pozostają | Pseudonimizowane |
| Stanowiska | Pozostają | Pozostają | Kontekstowo |
| Dane bankowe | Pseudonimizowane | Pseudonimizowane | Pseudonimizowane |
Więcej o Document Intelligence: Document Intelligence - PII, redakcja umów, rozpoznawanie podpisów
Umów spotkanie - Pokażemy pseudonimizację roundtrip na Twoich dokumentach.

Bert Gogolin
Dyrektor Generalny, Gosign
AI Governance Briefing
Enterprise AI, regulacje i infrastruktura - raz w miesiącu, bezpośrednio ode mnie.