Pourquoi mon PDF est-il si lourd ? (et comment le réduire)

Vous avez terminé un document de deux pages, vous l’avez exporté en PDF et vous vous retrouvez, on ne sait comment, avec un fichier de 40 Mo qui refuse de s’attacher à un e-mail. C’est une situation étonnamment fréquente. Un PDF n’est pas une seule chose : c’est un conteneur qui rassemble texte, polices, images, graphiques vectoriels et métadonnées dans un même fichier. Quand ce fichier est énorme, le poids provient presque toujours de quelques coupables bien précis. Une fois que vous savez lequel est en cause, réduire le PDF devient simple. Ce guide passe en revue chaque cause et la solution qui fonctionne réellement pour chacune.

Ce qu’il y a vraiment dans un PDF

Un PDF stocke le contenu sous la forme d’un ensemble d’objets: flux de texte, données d’image, programmes de polices et instructions qui les disposent sur la page. Le format est défini par une norme ISO ouverte, et la présentation de l’ISO 32000 par la PDF Association est une bonne référence si vous voulez les détails formels. La conclusion pratique est simple : le texte et les graphiques vectoriels sont minuscules, tandis que les images sont énormes en comparaison. Une page entière de texte dense peut peser quelques kilo-octets. Une seule photo en pleine page peut peser plusieurs méga-octets. Donc, lorsqu’un PDF est étonnamment lourd, la première question à se poser est presque toujours : d’où viennent les images ?

Cause n° 1 : les images incorporées en haute résolution

C’est la raison la plus fréquente pour laquelle un PDF gonfle. Quand vous glissez une photo prise avec un téléphone ou un appareil photo modernes dans un document, elle peut faire 4000 pixels de large ou plus. Même si elle s’affiche sur la page à une fraction de cette taille, le PDF stocke souvent la résolution complète. Pour un document destiné à être lu à l’écran ou imprimé en qualité normale, vous avez rarement besoin de plus de 150 pixels par pouce (PPP); pour une impression de haute qualité, 300 PPP suffisent largement. Tout ce qui dépasse cela est du poids gaspillé.

La solution consiste à rééchantillonner et recompresser ces images avant ou après leur intégration dans le PDF. Si vous maîtrisez les images sources, réduisez-les d’abord : passez-les dans le compresseur JPEGà une qualité de 70–80 et redimensionnez-les aux dimensions dont vous avez réellement besoin. Si les images sont déjà intégrées dans le PDF, passez tout le fichier dans le compresseur PDF, qui réencode les images incorporées à une taille plus petite et raisonnable. Pour du contenu photographique, cette seule étape réduit souvent le fichier de 80 pour cent ou plus.

Cause n° 2 : les pages scannées

Un document scanné est un cas particulier, et particulièrement lourd. Quand vous scannez du papier, chaque page devient une image en pleine page : il n’y a aucun véritable texte dans le fichier, seulement des images de texte. Les scanners se règlent souvent par défaut sur des valeurs de DPI très élevées (600 DPI est courant), et en couleur, ce qui produit des fichiers énormes pour ce qui est essentiellement de l’encre noire sur du papier blanc.

Vous pouvez faire deux choses. D’abord, scanner plus intelligemment : pour un document texte, scanner à 200–300 DPI en niveaux de gris ou en noir et blanc plutôt qu’à 600 DPI en couleur peut réduire la taille de façon spectaculaire tout en restant parfaitement lisible. Ensuite, pour les scans que vous possédez déjà, recompressez-les : en passant le fichier dans le compresseur PDF, ces images de page sont réencodées à une résolution et une qualité plus raisonnables. Soyez toutefois réaliste quant à la limite : un scan est fondamentalement un empilement d’images, il sera donc toujours plus lourd qu’un PDF de texte nativement numérique de même longueur.

Cause n° 3 : polices incorporées et objets dupliqués

Les PDF incorporent les polices qu’ils utilisent pour que le document s’affiche à l’identique sur tous les appareils, ce qui est excellent pour la fidélité mais ajoute du poids. Un exportateur bien conçu crée des sous-ensemblesde polices, n’incorporant que les caractères réellement utilisés. Les outils mal configurés incorporent la famille de polices entière, et un document qui utilise plusieurs typographies décoratives peut traîner plusieurs méga-octets de données de polices qu’il n’exploite presque pas. S’en tenir à un petit ensemble de polices courantes, et laisser votre logiciel en créer des sous-ensembles, permet de garder cela sous contrôle.

Vient ensuite la pure inefficacité. Certains logiciels écrivent la même image ou la même ressource plusieurs fois dans le fichier au lieu d’ y faire référence une seule fois : un logo qui apparaît dans un en-tête sur chaque page peut se retrouver incorporé des dizaines de fois. Les cycles répétés de « Enregistrer sous » et les modifications incrémentales peuvent aussi laisser derrière eux des objets orphelins et obsolètes qui ne sont jamais nettoyés. Réenregistrer le PDF avec un outil qui réécrit et dédoublonne sa structure d’objets élimine tout cela automatiquement.

Cause n° 4 : métadonnées, pièces jointes et résidus

Les contributeurs plus discrets s’accumulent. Les PDF peuvent contenir des métadonnées de document, des paquets XMP, des profils de couleur incorporés, des vignettes, des données de champs de formulaire, du JavaScript et même des pièces jointes entières. Les documents exportés depuis un logiciel de conception incluent parfois des calques masqués, des commentaires ou un historique des révisions. Rien de tout cela n’est visible sur la page, mais tout compte dans le total des octets. Optimiser ou « aplatir » le PDF supprime les parties dont vous n’avez pas besoin tout en laissant le contenu visible intact.

Quand un PDF ne se réduit pas beaucoup

La compression n’est pas magique, et il est utile de savoir quand on a atteint le plancher. Si votre PDF est essentiellement composé de texte réel et de graphiques vectoriels — un rapport nativement numérique, un contrat, un listing de code — il est probablement déjà petit, et il y a peu à gagner. Les octets font un travail utile, et serrer davantage n’y changera rien. Les gros gains proviennent presque entièrement des images: photos en haute résolution et pages scannées. Si recompresser celles-ci ne fait pas bouger l’aiguille, c’est que votre fichier ne contenait probablement pas beaucoup d’images au départ.

Un moyen rapide de le diagnostiquer : demandez-vous si vous pouvez sélectionner et copier le texte du document. Si vous le pouvez, il est nativement numérique et le poids provient d’images incorporées, de polices ou de résidus. Si vous ne le pouvez pas — si le texte ne fait que partie d’une image — vous avez un scan, et réduire la résolution de ces images de page est votre plus gros levier.

Réduire le vôtre, en toute confidentialité

La bonne nouvelle, c’est que régler tout cela ne nécessite d’envoyer votre document nulle part. Le compresseur PDF de FileShrinking s’exécute entièrement dans votre navigateur, si bien qu’un contrat confidentiel ou une pièce d’identité scannée ne quitte jamais votre appareil : tout est traité localement et rien n’est envoyé à un serveur. Commencez par là pour tout PDF volumineux ; si vous assemblez un document à partir de vos propres photos, réduisez-les d’abord avec le compresseur JPEGpour que le poids superflu n’entre jamais. À eux deux, la plupart des PDF surdimensionnés retombent à une taille gérable et compatible avec l’e-mail en une seule passe.