Porque é que o meu PDF é tão grande? (e como o reduzir)
Imagens em alta resolução, páginas digitalizadas, tipos de letra incorporados e objetos duplicados aumentam um PDF. Eis o que o causa e como o resolver.
Terminou um documento de duas páginas, exportou-o como PDF e, de alguma forma, acabou com um ficheiro de 40 MB que se recusa a ser anexado a um e-mail. É uma experiência surpreendentemente comum. Um PDF não é uma única coisa: é um contentor que agrupa texto, tipos de letra, imagens, gráficos vetoriais e metadados num único ficheiro. Quando esse ficheiro é enorme, o tamanho provém quase sempre de uns poucos culpados concretos. Assim que sabe a quem deve apontar o dedo, reduzir o PDF é simples. Este guia percorre cada causa e a solução que realmente funciona para cada uma.
O que há realmente dentro de um PDF
Um PDF armazena o conteúdo como uma coleção de objetos: fluxos de texto, dados de imagem, programas de tipos de letra e as instruções que os dispõem na página. O formato está definido por uma norma ISO aberta, e a descrição geral da ISO 32000 da PDF Association é uma boa referência se quiser os detalhes formais. A conclusão prática é simples: o texto e os gráficos vetoriais são minúsculos, ao passo que as imagens são enormes em comparação. Uma página inteira de texto denso pode ocupar uns poucos kilobytes. Uma única fotografia em página inteira pode ocupar vários megabytes. Por isso, quando um PDF é inesperadamente grande, a primeira pergunta a fazer é quase sempre: de onde vêm as imagens?
Causa n.° 1: imagens incorporadas em alta resolução
Esta é a razão mais comum para um PDF disparar de tamanho. Quando arrasta uma fotografia de um telemóvel ou de uma câmara modernos para um documento, esta pode ter 4000 píxeis de largura ou mais. Embora seja apresentada na página a uma fração desse tamanho, o PDF muitas vezes armazena a resolução completa. Para um documento pensado para ser lido no ecrã ou impresso com qualidade normal, raramente precisa de mais de 150 píxeis por polegada (PPP); para impressão de alta qualidade, 300 PPP são mais do que suficientes. Tudo o que estiver acima disso é peso desperdiçado.
A solução é reduzir a resolução e recomprimir essas imagens antes ou depois de entrarem no PDF. Se controla as imagens de origem, reduza-as primeiro: passe-as pelo compressor de JPEGcom uma qualidade de 70–80 e ajuste-as às dimensões de que realmente precisa. Se as imagens já estão integradas no PDF, passe o ficheiro inteiro pelo compressor de PDF, que volta a codificar as imagens incorporadas para um tamanho menor e sensato. Para conteúdo fotográfico, só este passo costuma reduzir o ficheiro em 80 por cento ou mais.
Causa n.° 2: páginas digitalizadas
Um documento digitalizado é um caso especial, e especialmente pesado. Quando digitaliza papel, cada página converte-se numa imagem em página inteira: não há texto real no ficheiro, apenas imagens de texto. Os scanners costumam estar predefinidos com valores de DPI muito elevados (600 DPI é habitual) e a todo o cor, o que produz ficheiros enormes para o que é essencialmente tinta preta sobre papel branco.
Pode fazer duas coisas. Primeiro, digitalizar com mais cabeça: para um documento de texto, digitalizar a 200–300 DPI em escala de cinzentos ou a preto e branco em vez de a 600 DPI a cores pode reduzir o tamanho de forma drástica sem deixar de ser perfeitamente legível. Segundo, para as digitalizações que já tem, recomprima-as: ao passar o ficheiro pelo compressor de PDF voltam a codificar-se essas imagens de página para uma resolução e qualidade mais razoáveis. Mas seja realista quanto ao limite: uma digitalização é, fundamentalmente, uma pilha de imagens, por isso será sempre maior do que um PDF de texto nativo digital com a mesma extensão.
Causa n.° 3: tipos de letra incorporados e objetos duplicados
Os PDF incorporam os tipos de letra que utilizam para que o documento tenha um aspeto idêntico em todos os dispositivos, o que é ótimo para a fidelidade mas acrescenta peso. Um exportador que se porta bem cria subconjuntos de tipos de letra, incorporando apenas os caracteres que realmente são usados. As ferramentas mal configuradas incorporam a família de tipos de letra inteira, e um documento que usa várias tipografias decorativas pode arrastar consigo vários megabytes de dados de tipos de letra em que mal toca. Limitar-se a um pequeno conjunto de tipos de letra comuns, e deixar que o seu software crie subconjuntos, mantém isto sob controlo.
Depois há a pura ineficiência. Alguns programas escrevem a mesma imagem ou recurso no ficheiro várias vezes em vez de o referenciarem uma só vez: um logótipo que aparece num cabeçalho em cada página pode acabar incorporado dezenas de vezes. Os ciclos repetidos de “Guardar como” e as edições incrementais também podem deixar para trás objetos órfãos e obsoletos que nunca chegam a ser eliminados. Voltar a guardar o PDF com uma ferramenta que reescreva e elimine os duplicados da sua estrutura de objetos limpa tudo isto automaticamente.
Causa n.° 4: metadados, anexos e restos
Os contribuidores mais pequenos somam-se. Os PDF podem transportar metadados do documento, pacotes XMP, perfis de cor incorporados, miniaturas, dados de campos de formulário, JavaScript e até ficheiros anexos completos. Os documentos exportados a partir de software de design por vezes incluem camadas ocultas, comentários ou histórico de revisões. Nada disto é visível na página, mas tudo conta para o total de bytes. Otimizar ou “achatar” o PDF elimina as partes de que não precisa, deixando o conteúdo visível intacto.
Quando um PDF não reduz muito
A compressão não é magia, e ajuda saber quando se chegou ao fundo. Se o seu PDF é na sua maioria texto real e gráficos vetoriais — um relatório nativo digital, um contrato, uma listagem de código — é provável que já seja pequeno, e há pouco a ganhar. Os bytes estão a fazer um trabalho útil, e apertar mais não servirá de nada. Os grandes ganhos provêm quase por completo das imagens: fotografias em alta resolução e páginas digitalizadas. Se recomprimir essas imagens não move a agulha, o mais provável é que o seu ficheiro não tivesse muitas imagens para começar.
Uma forma rápida de o diagnosticar: pergunte-se se consegue selecionar e copiar o texto do documento. Se conseguir, é nativo digital e o tamanho provém de imagens incorporadas, tipos de letra ou restos. Se não conseguir — se o texto for apenas parte de uma imagem — tem uma digitalização, e reduzir a resolução dessas imagens de página é a sua maior alavanca.
Reduzir o seu, de forma privada
A boa notícia é que resolver tudo isto não exige carregar o seu documento para lado nenhum. O compressor de PDF da FileShrinking é executado por completo no seu navegador, por isso um contrato confidencial ou um documento de identificação digitalizado nunca sai do seu dispositivo: é processado localmente e não é enviado nada para nenhum servidor. Comece por aí com qualquer PDF grande; se está a montar um documento a partir das suas próprias fotografias, reduza-as primeiro com o compressor de JPEG para que o peso a mais nunca chegue a entrar. Entre os dois, a maioria dos PDF sobredimensionados fica num tamanho gerível e adequado a e-mail numa só passagem.