PII (Personally Identifiable Information) são dados pessoais que permitem identificar direta ou indiretamente uma pessoa física: nome, endereço, data de nascimento, CPF (PT: NIF), e-mail, dados bancários, dados biométricos, endereços IP.

Dados pessoais podem ser enviados para um LLM?

Somente com base legal e em conformidade com os princípios da LGPD (PT: RGPD), em particular a minimização de dados (art. 6o da LGPD). A pseudonimização roundtrip garante que o modelo veja apenas pseudônimos, nunca dados pessoais.

Qual a diferença entre anonimização e pseudonimização?

A anonimização remove a referência pessoal de forma irreversível. A pseudonimização a substitui por pseudônimos, mantendo a possibilidade de correspondência por meio de uma tabela separada. Para processamento por LLM, a pseudonimização com re-anonimização é a abordagem correta: o modelo vê apenas pseudônimos, o resultado contém novamente os dados reais.

Este conteúdo aplica-se também a empresas em Portugal?

Sim. Embora o Brasil seja regido pela LGPD e Portugal pelo RGPD, os principios de pseudonimizacao roundtrip são aplicaveis em ambos os contextos regulatórios. A ANPD (BR) e a CNPD (PT) reconhecem a pseudonimizacao como medida técnica adequada de proteção de dados. A arquitetura e identica, apenas os fundamentos legais diferem.

Anonimização de PII para IA Empresarial

Por que dados pessoais são um problema para o processamento com IA

Quando um agente de IA analisa um contrato de trabalho, verifica uma folha de pagamento ou processa um atestado médico, ele opera com dados pessoais. Nome, endereço, data de nascimento, CPF (PT: NIF), salário, diagnóstico.

Resumo - Anonimização de PII para IA Empresarial

A pseudonimização roundtrip substitui PII por pseudônimos consistentes antes do processamento pelo LLM, e reinsere os dados reais na saída.
O Decision Layer governa quais categorias de PII são detectadas por processo (RH, finanças, compliance) por meio de conjuntos de regras versionados.
A pseudonimização preserva a estrutura e o contexto do documento - ao contrário do mascaramento, que torna documentos inúteis para análise por IA.
O Confidence Routing escala entidades ambíguas para um humano; identificadores implícitos requerem regras de contexto no conjunto de regras.
IAPP (2024) constata que 58% das organizações que processam documentos com IA não possuem detecção sistemática de PII, expondo-se ao risco de aplicação da LGPD (PT: RGPD).

Enviar esses dados a um modelo de linguagem, mesmo a um modelo auto-hospedado, cria risco de conformidade com a LGPD (PT: RGPD). A legislação exige minimização de dados (art. 6o da LGPD / art. 5.1.c do RGPD): somente os dados necessários para a finalidade podem ser processados. Para classificar um tipo de documento, o modelo não precisa do nome do colaborador. Para verificar a conformidade com a faixa salarial, não precisa da data de nascimento.

Porém, o modelo precisa de contexto. Um contrato sem nenhuma informação pessoal é inútil para a análise de IA, faltam as referências, as relações e as conexões.

A solução não é o mascaramento, mas a pseudonimização.

Pseudonimizacao roundtrip: o principio

A pseudonimizacao roundtrip e um processo em tres etapas:

Passo 1: Detectar e substituir. A camada de pre-processamento identifica todos os dados pessoais no documento. Cada instância de PII e substituida por um pseudonimo consistente: “Joao Silva” se torna “Pessoa_A”, “R$ 15.000” se torna “Salario_A”, “Rua Augusta 100” se torna “Endereco_A”. O ponto essencial: os pseudonimos são consistentes. Se “Joao Silva” aparece novamente na página 3, ele contínua sendo “Pessoa_A”. Isso preserva a estrutura do documento.

Passo 2: Processar. O documento pseudonimizado e enviado ao modelo de linguagem. O modelo ve: “Pessoa_A tem Salario_A em Endereco_A. O contrato vigora até 2027.” Ele pode realizar a análise contratual, a verificação de faixa salarial, a classificação de clausulas, sem jamais ter visto um nome ou salario real.

Passo 3: Re-anonimizar. A saida do modelo contem pseudonimos: “Pessoa_A esta dentro da faixa salarial E3.” A camada de re-anonimizacao substitui os pseudonimos pelos dados reais: “Joao Silva esta dentro da faixa salarial E3.” A tabela de correspondencia e excluida apos o processamento.

O que o Decision Layer controla

Nem todo campo de dados requer pseudonimizacao. O Decision Layer define quais categorias de PII são detectadas e substituidas, governado por conjuntos de regras versionados:

Para um processo de RH: pseudonimizar nomes, salarios, enderecos, CPFs (PT: NIFs). Cargos e departamentos podem permanecer, são relevantes para a análise e não constituem dados pessoais.

Para um processo financeiro: nomes de empresas permanecem, pessoas de contato são pseudonimizadas, valores permanecem (são necessarios para decisoes contabeis), dados bancarios são pseudonimizados.

Para um processo de compliance: pseudonimizar tudo, incluindo nomes de empresas, se a análise deve ser transversal.

Essas regras são específicas por mandante e versionadas. Quando um acordo coletivo (PT: acordo de empresa) muda, uma nova versão de regras e criada. Em uma auditoria, e rastreável qual regra de PII, em qual versão, estava vigente no momento do processamento.

Limitacoes e avaliação honesta

A deteccao de PII não e perfeita. O reconhecimento de entidades nomeadas (NER) comete erros, especialmente com:

Nomes ambiguos: “Santos” pode ser um sobrenome ou uma cidade. “Salvador” pode ser uma cidade ou um nome próprio. O Decision Layer aborda isso por meio de Confidence Routing: com alta confiança, a pseudonimizacao e automática. Com baixa confiança, a questao e escalada para um ser humano.

Identificadores implicitos: “A única desenvolvedora no escritorio de Curitiba” não contem PII explicita, mas identifica uma pessoa. Esses identificadores indiretos são dificeis de detectar automaticamente. A abordagem: regras de contexto no conjunto de regras definem quais combinacoes de atributos permitem a identificação.

Novos tipos de documentos: quando um novo tipo de documento entra no processamento, o conjunto de regras de PII deve ser revisado e possivelmente ampliado. Isso não é uma configuração única, mas um processo contínuo.

Categoria PII	Processo RH	Processo financeiro	Processo compliance
Nomes	Pseudonimizados	Contatos pseudonimizados	Tudo pseudonimizado
Salários / Valores	Pseudonimizados	Permanecem (decisões contábeis)	Pseudonimizados
Endereços	Pseudonimizados	Permanecem	Pseudonimizados
Números de identificação (CPF)	Pseudonimizados	Pseudonimizados	Pseudonimizados
Nomes de empresas	Permanecem	Permanecem	Pseudonimizados
Cargos	Permanecem	Permanecem	Conforme contexto
Dados bancários	Pseudonimizados	Pseudonimizados	Pseudonimizados

Mais sobre Document Intelligence: Document Intelligence - PII, redação de contratos, detecção de assinaturas

Agendar reunião - Demonstramos a pseudonimizacao roundtrip com seus documentos.

Bert Gogolin

Diretor Executivo, Gosign

AI Governance Briefing

IA empresarial, regulamentação e infraestrutura - uma vez por mês, diretamente de mim.