Anonimização de PII para IA Empresarial
Como processar documentos com dados pessoais em conformidade com a LGPD usando IA. Pseudonimização roundtrip, Decision Layer, Audit Trail.
Por que dados pessoais são um problema para o processamento com IA
Quando um agente de IA analisa um contrato de trabalho, verifica uma folha de pagamento ou processa um atestado médico, ele opera com dados pessoais. Nome, endereço, data de nascimento, CPF (PT: NIF), salário, diagnóstico.
Resumo - Anonimização de PII para IA Empresarial
- A pseudonimização roundtrip substitui PII por pseudônimos consistentes antes do processamento pelo LLM, e reinsere os dados reais na saída.
- O Decision Layer governa quais categorias de PII são detectadas por processo (RH, finanças, compliance) por meio de conjuntos de regras versionados.
- A pseudonimização preserva a estrutura e o contexto do documento - ao contrário do mascaramento, que torna documentos inúteis para análise por IA.
- O Confidence Routing escala entidades ambíguas para um humano; identificadores implícitos requerem regras de contexto no conjunto de regras.
- IAPP (2024) constata que 58% das organizações que processam documentos com IA não possuem detecção sistemática de PII, expondo-se ao risco de aplicação da LGPD (PT: RGPD).
Enviar esses dados a um modelo de linguagem, mesmo a um modelo auto-hospedado, cria risco de conformidade com a LGPD (PT: RGPD). A legislação exige minimização de dados (art. 6o da LGPD / art. 5.1.c do RGPD): somente os dados necessários para a finalidade podem ser processados. Para classificar um tipo de documento, o modelo não precisa do nome do colaborador. Para verificar a conformidade com a faixa salarial, não precisa da data de nascimento.
Porém, o modelo precisa de contexto. Um contrato sem nenhuma informação pessoal é inútil para a análise de IA, faltam as referências, as relações e as conexões.
A solução não é o mascaramento, mas a pseudonimização.
Pseudonimizacao roundtrip: o principio
A pseudonimizacao roundtrip e um processo em tres etapas:
Passo 1: Detectar e substituir. A camada de pre-processamento identifica todos os dados pessoais no documento. Cada instância de PII e substituida por um pseudonimo consistente: “Joao Silva” se torna “Pessoa_A”, “R$ 15.000” se torna “Salario_A”, “Rua Augusta 100” se torna “Endereco_A”. O ponto essencial: os pseudonimos são consistentes. Se “Joao Silva” aparece novamente na página 3, ele contínua sendo “Pessoa_A”. Isso preserva a estrutura do documento.
Passo 2: Processar. O documento pseudonimizado e enviado ao modelo de linguagem. O modelo ve: “Pessoa_A tem Salario_A em Endereco_A. O contrato vigora até 2027.” Ele pode realizar a análise contratual, a verificação de faixa salarial, a classificação de clausulas, sem jamais ter visto um nome ou salario real.
Passo 3: Re-anonimizar. A saida do modelo contem pseudonimos: “Pessoa_A esta dentro da faixa salarial E3.” A camada de re-anonimizacao substitui os pseudonimos pelos dados reais: “Joao Silva esta dentro da faixa salarial E3.” A tabela de correspondencia e excluida apos o processamento.
O que o Decision Layer controla
Nem todo campo de dados requer pseudonimizacao. O Decision Layer define quais categorias de PII são detectadas e substituidas, governado por conjuntos de regras versionados:
Para um processo de RH: pseudonimizar nomes, salarios, enderecos, CPFs (PT: NIFs). Cargos e departamentos podem permanecer, são relevantes para a análise e não constituem dados pessoais.
Para um processo financeiro: nomes de empresas permanecem, pessoas de contato são pseudonimizadas, valores permanecem (são necessarios para decisoes contabeis), dados bancarios são pseudonimizados.
Para um processo de compliance: pseudonimizar tudo, incluindo nomes de empresas, se a análise deve ser transversal.
Essas regras são específicas por mandante e versionadas. Quando um acordo coletivo (PT: acordo de empresa) muda, uma nova versão de regras e criada. Em uma auditoria, e rastreável qual regra de PII, em qual versão, estava vigente no momento do processamento.
Limitacoes e avaliação honesta
A deteccao de PII não e perfeita. O reconhecimento de entidades nomeadas (NER) comete erros, especialmente com:
Nomes ambiguos: “Santos” pode ser um sobrenome ou uma cidade. “Salvador” pode ser uma cidade ou um nome próprio. O Decision Layer aborda isso por meio de Confidence Routing: com alta confiança, a pseudonimizacao e automática. Com baixa confiança, a questao e escalada para um ser humano.
Identificadores implicitos: “A única desenvolvedora no escritorio de Curitiba” não contem PII explicita, mas identifica uma pessoa. Esses identificadores indiretos são dificeis de detectar automaticamente. A abordagem: regras de contexto no conjunto de regras definem quais combinacoes de atributos permitem a identificação.
Novos tipos de documentos: quando um novo tipo de documento entra no processamento, o conjunto de regras de PII deve ser revisado e possivelmente ampliado. Isso não é uma configuração única, mas um processo contínuo.
| Categoria PII | Processo RH | Processo financeiro | Processo compliance |
|---|---|---|---|
| Nomes | Pseudonimizados | Contatos pseudonimizados | Tudo pseudonimizado |
| Salários / Valores | Pseudonimizados | Permanecem (decisões contábeis) | Pseudonimizados |
| Endereços | Pseudonimizados | Permanecem | Pseudonimizados |
| Números de identificação (CPF) | Pseudonimizados | Pseudonimizados | Pseudonimizados |
| Nomes de empresas | Permanecem | Permanecem | Pseudonimizados |
| Cargos | Permanecem | Permanecem | Conforme contexto |
| Dados bancários | Pseudonimizados | Pseudonimizados | Pseudonimizados |
Mais sobre Document Intelligence: Document Intelligence - PII, redação de contratos, detecção de assinaturas
Agendar reunião - Demonstramos a pseudonimizacao roundtrip com seus documentos.

Bert Gogolin
Diretor Executivo, Gosign
AI Governance Briefing
IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.