PII (Personally Identifiable Information) to dane osobowe, które umożliwiają bezpośrednią lub pośrednią identyfikację osoby fizycznej: imię i nazwisko, adres, data urodzenia, numer PESEL, adres e-mail, dane bankowe, dane biometryczne, adresy IP.

Czy można przesyłać dane osobowe do modelu LLM?

Tylko na podstawie prawnej i z zachowaniem zasad RODO, w szczególności zasady minimalizacji danych (art. 5 ust. 1 lit. c RODO). Pseudonimizacja roundtrip zapewnia, że model widzi wyłącznie pseudonimy, a nie dane osobowe.

Jaka jest różnica między anonimizacją a pseudonimizacją?

Anonimizacja usuwa powiązanie z osobą w sposób nieodwracalny. Pseudonimizacja zastępuje je pseudonimami, przy czym przyporządkowanie pozostaje możliwe za pomocą oddzielnej tabeli. W przypadku przetwarzania przez LLM właściwym podejściem jest pseudonimizacja z re-anonimizacją: model widzi tylko pseudonimy, a wynik zawiera ponownie prawdziwe dane.

Anonimizacja PII dla Enterprise AI

Dlaczego dane osobowe stanowią problem przy przetwarzaniu przez AI

Gdy agent AI analizuje umowę o pracę, sprawdza listę płac lub przetwarza zwolnienie lekarskie, operuje na danych osobowych. Imię i nazwisko, adres, data urodzenia, numer PESEL, wynagrodzenie, diagnoza.

W skrócie - Anonimizacja PII dla Enterprise AI

Pseudonimizacja roundtrip zastępuje PII spójnymi pseudonimami przed przetwarzaniem przez LLM, a następnie przywraca prawdziwe dane w wynikach.
Decision Layer steruje, które kategorie PII są wykrywane w danym procesie (HR, finanse, compliance) - poprzez wersjonowane zestawy reguł.
Pseudonimizacja zachowuje strukturę i kontekst dokumentu - w przeciwieństwie do zamazywania, które czyni dokumenty bezużytecznymi dla analizy AI.
Confidence Routing eskaluje niejednoznaczne encje do człowieka; ukryte identyfikatory wymagają reguł kontekstowych w zestawie reguł.
IAPP (2024) stwierdza, że 58% organizacji przetwarzających dokumenty z AI nie posiada systematycznego wykrywania PII - narażając się na egzekwowanie RODO.

Przesyłanie tych danych do modelu językowego, nawet hostowanego lokalnie, jest problematyczne z punktu widzenia ochrony danych. RODO wymaga minimalizacji danych (art. 5 ust. 1 lit. c): przetwarzane mogą być wyłącznie dane niezbędne do realizacji celu. Do klasyfikacji typu dokumentu model nie potrzebuje nazwiska pracownika. Do weryfikacji zgodności z siatką płac nie potrzebuje daty urodzenia.

Jednocześnie model potrzebuje kontekstu. Umowa pozbawiona wszelkich informacji o osobach jest bezwartościowa dla analizy AI, brakuje w niej odniesień, relacji i powiązań.

Rozwiązaniem nie jest zamazywanie, lecz pseudonimizacja.

Pseudonimizacja roundtrip: zasada działania

Pseudonimizacja roundtrip to proces trzyetapowy:

Krok 1: Rozpoznanie i zastąpienie. Warstwa pre-processingu rozpoznaje wszystkie dane osobowe w dokumencie. Każda instancja PII jest zastępowana spójnym pseudonimem: “Jan Kowalski” staje się “Osoba_A”, “12 000 PLN” staje się “Wynagrodzenie_A”, “ul. Marszałkowska 8” staje się “Adres_A”. Kluczowe: pseudonimy są spójne. Jeśli “Jan Kowalski” pojawia się ponownie na stronie 3, nadal jest “Osoba_A”. To zachowuje strukturę dokumentu.

Krok 2: Przetworzenie. Spseudominizowany dokument trafia do modelu językowego. Model widzi: “Osoba_A ma Wynagrodzenie_A pod Adres_A. Umowa obowiązuje do 2027 roku.” Może przeprowadzić analizę umowy, weryfikację siatki płac, klasyfikację klauzul, nie widząc nigdy prawdziwego nazwiska ani wynagrodzenia.

Krok 3: Re-anonimizacja. Wynik modelu zawiera pseudonimy: “Osoba_A mieści się w grupie zaszeregowania E3.” Warstwa re-anonimizacji zastępuje pseudonimy prawdziwymi danymi: “Jan Kowalski mieści się w grupie zaszeregowania E3.” Tabela przyporządkowań jest usuwana po zakończeniu przetwarzania.

Co steruje Decision Layer

Nie każde pole danych wymaga pseudonimizacji. Decision Layer definiuje, które kategorie PII są rozpoznawane i zastępowane, na podstawie wersjonowanego zestawu reguł:

W procesie HR: pseudonimizacja imion i nazwisk, wynagrodzeń, adresów, numerów PESEL. Stanowiska i działy mogą pozostać, są istotne dla analizy i nie stanowią danych osobowych.

W procesie finansowym: nazwy firm pozostają, dane kontaktowe osób są pseudonimizowane, kwoty pozostają (są istotne dla decyzji księgowych), dane bankowe są pseudonimizowane.

W procesie compliance: pseudonimizacja wszystkiego, łącznie z nazwami firm, jeśli analiza ma być międzydziałowa.

Te reguły są specyficzne dla danego mandanta i wersjonowane. Gdy zmienia się porozumienie zakładowe, powstaje nowa wersja reguł. Podczas kontroli można prześledzić, jaka reguła PII w jakiej wersji obowiązywała w momencie przetwarzania.

Ograniczenia i uczciwa ocena

Rozpoznawanie PII nie jest perfekcyjne. Named Entity Recognition (NER) popełnia błędy, szczególnie w przypadku:

Niejednoznacznych nazw: “Kowalski” może być nazwiskiem lub nazwą firmy. “Warszawa” może być miastem lub częścią nazwy własnej. Decision Layer adresuje to poprzez Confidence Routing: przy wysokim poziomie pewności pseudonimizacja następuje automatycznie. Przy niskim poziomie pewności sprawa jest eskalowana do człowieka.

Ukrytych identyfikatorów: “Jedyna programistka w oddziale w Krakowie” nie zawiera jawnych danych PII, ale umożliwia identyfikację osoby. Takie pośrednie identyfikatory są trudne do automatycznego wykrycia. Podejście: reguły kontekstowe w zestawie reguł definiują kombinacje cech umożliwiające identyfikację.

Nowych typów dokumentów: gdy pojawia się nowy typ dokumentu, zestaw reguł PII musi być zweryfikowany i ewentualnie rozszerzony. To nie jest jednorazowa konfiguracja, lecz ciągły proces.

Kategoria PII	Proces HR	Proces finansowy	Proces compliance
Imiona i nazwiska	Pseudonimizowane	Osoby kontaktowe pseudonimizowane	Wszystko pseudonimizowane
Wynagrodzenia / Kwoty	Pseudonimizowane	Pozostają (decyzje księgowe)	Pseudonimizowane
Adresy	Pseudonimizowane	Pozostają	Pseudonimizowane
Numery identyfikacyjne (PESEL)	Pseudonimizowane	Pseudonimizowane	Pseudonimizowane
Nazwy firm	Pozostają	Pozostają	Pseudonimizowane
Stanowiska	Pozostają	Pozostają	Kontekstowo
Dane bankowe	Pseudonimizowane	Pseudonimizowane	Pseudonimizowane

Więcej o Document Intelligence: Document Intelligence - PII, redakcja umów, rozpoznawanie podpisów

Umów spotkanie - Pokażemy pseudonimizację roundtrip na Twoich dokumentach.

Bert Gogolin

Dyrektor Generalny, Gosign

AI Governance Briefing

Enterprise AI, regulacje i infrastruktura - raz w miesiącu, bezpośrednio ode mnie.