Pular para o conteúdo
Governance & Compliance

Anonimização de PII para IA Empresarial

Como processar documentos com dados pessoais em conformidade com a LGPD usando IA. Pseudonimização roundtrip, Decision Layer, Audit Trail.

Dieter Gogolin
Dieter Gogolin
CEO e cofundador 6 min de leitura

Por que dados pessoais são um problema para o processamento com IA

Quando um agente de IA analisa um contrato de trabalho, verifica uma folha de pagamento ou processa um atestado médico, ele opera com dados pessoais. Nome, endereço, data de nascimento, CPF (PT: NIF), salário, diagnóstico.

Resumo - Anonimização de PII para IA Empresarial

  • A pseudonimização roundtrip substitui PII por pseudônimos consistentes antes do processamento pelo LLM, e reinsere os dados reais na saída.
  • O Decision Layer governa quais categorias de PII são detectadas por processo (RH, finanças, compliance) por meio de conjuntos de regras versionados.
  • A pseudonimização preserva a estrutura e o contexto do documento - ao contrário do mascaramento, que torna documentos inúteis para análise por IA.
  • O Confidence Routing escala entidades ambíguas para um humano; identificadores implícitos requerem regras de contexto no conjunto de regras.
  • IAPP (2024) constata que 58% das organizações que processam documentos com IA não possuem detecção sistemática de PII, expondo-se ao risco de aplicação da LGPD (PT: RGPD).

Enviar esses dados a um modelo de linguagem, mesmo a um modelo auto-hospedado, cria risco de conformidade com a LGPD (PT: RGPD). A legislação exige minimização de dados (art. 6o da LGPD / art. 5.1.c do RGPD): somente os dados necessários para a finalidade podem ser processados. Para classificar um tipo de documento, o modelo não precisa do nome do colaborador. Para verificar a conformidade com a faixa salarial, não precisa da data de nascimento.

Porém, o modelo precisa de contexto. Um contrato sem nenhuma informação pessoal é inútil para a análise de IA, faltam as referências, as relações e as conexões.

A solução não é o mascaramento, mas a pseudonimização.

Pseudonimizacao roundtrip: o principio

A pseudonimizacao roundtrip e um processo em tres etapas:

Passo 1: Detectar e substituir. A camada de pre-processamento identifica todos os dados pessoais no documento. Cada instância de PII e substituida por um pseudonimo consistente: “Joao Silva” se torna “Pessoa_A”, “R$ 15.000” se torna “Salario_A”, “Rua Augusta 100” se torna “Endereco_A”. O ponto essencial: os pseudonimos são consistentes. Se “Joao Silva” aparece novamente na página 3, ele contínua sendo “Pessoa_A”. Isso preserva a estrutura do documento.

Passo 2: Processar. O documento pseudonimizado e enviado ao modelo de linguagem. O modelo ve: “Pessoa_A tem Salario_A em Endereco_A. O contrato vigora até 2027.” Ele pode realizar a análise contratual, a verificação de faixa salarial, a classificação de clausulas, sem jamais ter visto um nome ou salario real.

Passo 3: Re-anonimizar. A saida do modelo contem pseudonimos: “Pessoa_A esta dentro da faixa salarial E3.” A camada de re-anonimizacao substitui os pseudonimos pelos dados reais: “Joao Silva esta dentro da faixa salarial E3.” A tabela de correspondencia e excluida apos o processamento.

O que o Decision Layer controla

Nem todo campo de dados requer pseudonimizacao. O Decision Layer define quais categorias de PII são detectadas e substituidas, governado por conjuntos de regras versionados:

Para um processo de RH: pseudonimizar nomes, salarios, enderecos, CPFs (PT: NIFs). Cargos e departamentos podem permanecer, são relevantes para a análise e não constituem dados pessoais.

Para um processo financeiro: nomes de empresas permanecem, pessoas de contato são pseudonimizadas, valores permanecem (são necessarios para decisoes contabeis), dados bancarios são pseudonimizados.

Para um processo de compliance: pseudonimizar tudo, incluindo nomes de empresas, se a análise deve ser transversal.

Essas regras são específicas por mandante e versionadas. Quando um acordo coletivo (PT: acordo de empresa) muda, uma nova versão de regras e criada. Em uma auditoria, e rastreável qual regra de PII, em qual versão, estava vigente no momento do processamento.

Limitacoes e avaliação honesta

A deteccao de PII não e perfeita. O reconhecimento de entidades nomeadas (NER) comete erros, especialmente com:

Nomes ambiguos: “Santos” pode ser um sobrenome ou uma cidade. “Salvador” pode ser uma cidade ou um nome próprio. O Decision Layer aborda isso por meio de Confidence Routing: com alta confiança, a pseudonimizacao e automática. Com baixa confiança, a questao e escalada para um ser humano.

Identificadores implicitos: “A única desenvolvedora no escritorio de Curitiba” não contem PII explicita, mas identifica uma pessoa. Esses identificadores indiretos são dificeis de detectar automaticamente. A abordagem: regras de contexto no conjunto de regras definem quais combinacoes de atributos permitem a identificação.

Novos tipos de documentos: quando um novo tipo de documento entra no processamento, o conjunto de regras de PII deve ser revisado e possivelmente ampliado. Isso não é uma configuração única, mas um processo contínuo.

Categoria PIIProcesso RHProcesso financeiroProcesso compliance
NomesPseudonimizadosContatos pseudonimizadosTudo pseudonimizado
Salários / ValoresPseudonimizadosPermanecem (decisões contábeis)Pseudonimizados
EndereçosPseudonimizadosPermanecemPseudonimizados
Números de identificação (CPF)PseudonimizadosPseudonimizadosPseudonimizados
Nomes de empresasPermanecemPermanecemPseudonimizados
CargosPermanecemPermanecemConforme contexto
Dados bancáriosPseudonimizadosPseudonimizadosPseudonimizados

Mais sobre Document Intelligence: Document Intelligence - PII, redação de contratos, detecção de assinaturas

Agendar reunião - Demonstramos a pseudonimizacao roundtrip com seus documentos.

Bert Gogolin

Bert Gogolin

Diretor Executivo, Gosign

AI Governance Briefing

IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.

Sem spam. Cancelável a qualquer momento. Política de privacidade

PII Anonimização LGPD LLM Document Intelligence Decision Layer
Compartilhar este artigo

Perguntas frequentes

O que é PII?

PII (Personally Identifiable Information) são dados pessoais que permitem identificar direta ou indiretamente uma pessoa física: nome, endereço, data de nascimento, CPF (PT: NIF), e-mail, dados bancários, dados biométricos, endereços IP.

Dados pessoais podem ser enviados para um LLM?

Somente com base legal e em conformidade com os princípios da LGPD (PT: RGPD), em particular a minimização de dados (art. 6o da LGPD). A pseudonimização roundtrip garante que o modelo veja apenas pseudônimos, nunca dados pessoais.

Qual a diferença entre anonimização e pseudonimização?

A anonimização remove a referência pessoal de forma irreversível. A pseudonimização a substitui por pseudônimos, mantendo a possibilidade de correspondência por meio de uma tabela separada. Para processamento por LLM, a pseudonimização com re-anonimização é a abordagem correta: o modelo vê apenas pseudônimos, o resultado contém novamente os dados reais.

Este conteúdo aplica-se também a empresas em Portugal?

Sim. Embora o Brasil seja regido pela LGPD e Portugal pelo RGPD, os principios de pseudonimizacao roundtrip são aplicaveis em ambos os contextos regulatórios. A ANPD (BR) e a CNPD (PT) reconhecem a pseudonimizacao como medida técnica adequada de proteção de dados. A arquitetura e identica, apenas os fundamentos legais diferem.

Qual processo seu primeiro agente deveria gerenciar?

Deixe seu email - você receberá seu link pessoal de agendamento instantaneamente.