// PDF FORENSICS

PDF Metadata Cleaner

Remove author, software, timestamps, and other hidden traces from PDF files — locally in your browser

Drop your PDF here

or click to browse

Max 50 MB. Processed entirely in your browser.

Que metadados estão escondidos no seu PDF?

Todo documento PDF carrega um pequeno dicionário "Info" de metadados que a maioria nunca vê. Não é o conteúdo visível do documento — é informação *sobre* o documento. Campos comuns:

Autor — normalmente o nome de usuário do sistema operacional de quem criou o arquivo. ("Maria Silva" num notebook corporativo, ou pior: "msilva" batendo com login de email.)
Criador — o software que originalmente escreveu o documento ("Microsoft Word 2019", "LibreOffice 7.4", "Adobe Acrobat Pro DC").
Produtor — a biblioteca PDF que produziu o arquivo final. Indica se foi exportado, convertido, ou impresso-pra-PDF.
Data de criação e data de modificação — timestamps exatos, frequentemente até o segundo. Podem revelar quando você escreveu o arquivo (3h da manhã na véspera da entrega?) ou que um arquivo que você alegou ser inalterado foi de fato editado ontem.
Título, Assunto, Palavras-chave — definidos automaticamente por alguns templates do Office, frequentemente contém nomes internos de projetos.

Pra muitos documentos isso é inofensivo. Pra um jornalista recebendo um vazamento "anônimo", um currículo de RH supostamente de "outro" laptop, ou uma submissão judicial, pode ser uma divulgação crítica.

O que esta ferramenta de fato faz

Seu PDF é lido na memória do navegador usando pdf-lib, uma biblioteca JavaScript pra PDFs. O dicionário Info é enumerado, exibido pra você, e ao baixar geramos um novo arquivo PDF com os campos selecionados zerados. O arquivo original no seu disco fica intacto.

Nada é enviado. A aba do navegador faz todo o trabalho. Você pode verificar: abra o DevTools → aba Rede, rode uma limpeza, e observe — nenhuma requisição saindo.

O que esta ferramenta NÃO faz

Alguns limites importantes:

Não remove metadados XMP embutidos em object streams. O spec do PDF tem dois sistemas paralelos de metadados: o dicionário Info (que limpamos) e para maioria dos arquivos é o mais ruidoso e o dicionário XMP.

Não remove conteúdo de texto, imagens ou comentários. Se sua preocupação é texto oculto, caixas que parecem mas não foram redatadas, ou histórico de revisões, você precisa de uma ferramenta mais agressiva.

Não preserva assinaturas digitais. Qualquer modificação aos bytes do arquivo invalida a assinatura. Se você precisa de documento limpo E assinatura válida, assine *depois* da limpeza, não antes.

O que não dá pra limpar (e por quê)

Alguns campos de metadados não podem ser removidos — só substituídos. Isso não é uma escolha nossa, é um limite da biblioteca PDF que usamos. Vale entender o que está acontecendo:

Produtor (a assinatura da biblioteca PDF). Todo PDF carrega um campo /Producer nomeando o software que escreveu os bytes finais. A gente usa uma biblioteca JavaScript chamada pdf-lib pra ler seu arquivo e escrever a cópia limpa. Quando o pdf-lib salva um PDF, ele carimba o próprio nome — pdf-lib (https://github.com/Hopding/pdf-lib) — no Producer, sobrescrevendo o que estava ali antes. Não existe API pública pra suprimir isso. Cirurgia byte-a-byte no resultado pra apagar o Producer arriscaria corromper PDFs que usam recursos modernos de compressão (Object Streams), e corrupção silenciosa é pior que uma assinatura genérica. O vazamento é pequeno: ver "pdf-lib" diz que o arquivo passou por uma biblioteca open-source; não identifica você, seu computador, nem o histórico real do documento.

Data de criação e data de modificação. A spec do PDF permite que essas datas estejam ausentes, mas o pdf-lib não gera um PDF sem elas — e mesmo que conseguíssemos removê-las, a ausência em si é um sinal ("esse arquivo teve as datas zeradas"). O caminho honesto é substituir por algo que não seja seu timestamp real. A ferramenta dá duas estratégias:

1 de janeiro do ano original (padrão). Mantém o ano do documento original e zera mês, dia e hora. Plausível — um PDF "de 2024" não levanta suspeita. Perde o detalhe de dia que um investigador poderia cruzar com outros eventos.
1970-01-01 (Unix epoch). Completamente neutro, mas cria um padrão reconhecível: quem analisar o arquivo vai saber que ele passou por uma ferramenta de limpeza. Use quando preferir sinalizar "limpo" a revelar qualquer coisa específica.

Boa prática: mantenha os dois arquivos

Baixamos a versão limpa como seuarquivo-clean.pdf. O original fica na sua máquina. Crie o hábito de manter os dois, pelo menos temporariamente — se você descobrir que a versão limpa quebrou algo que você precisava (uma assinatura, metadados de um campo de formulário), pode sempre voltar ao original.

Last reviewed July 2026