Skip to content
PDFPoradnik

Dlaczego mój PDF jest taki duży? (i jak go zmniejszyć)

Zdjęcia w wysokiej rozdzielczości, skany, osadzone czcionki i zdublowane obiekty pogrubiają PDF. Oto co powoduje duży PDF i jak naprawić każdą przyczynę.

The FileShrinking Team24 czerwca 20267 min czytania

Skończyłeś dwustronicowy dokument, wyeksportowałeś go jako PDF i w jakiś sposób skończyłeś z plikiem o rozmiarze 40 MB, który nie chce się dołączyć do wiadomości e-mail. To zaskakująco częste doświadczenie. PDF nie jest jedną rzeczą — to kontener, który łączy tekst, czcionki, obrazy, grafikę wektorową i metadane w jeden plik. Gdy ten plik jest ogromny, rozmiar prawie zawsze pochodzi od kilku konkretnych winowajców. Gdy już wiesz, którego z nich obarczyć winą, zmniejszenie PDF-a jest proste. Ten przewodnik omawia każdą przyczynę i rozwiązanie, które naprawdę dla niej działa.

Co tak naprawdę kryje się w PDF-ie

PDF przechowuje treść jako zbiór obiektów: strumieni tekstu, danych obrazów, programów czcionek oraz instrukcji, które rozmieszczają je na stronie. Format jest zdefiniowany przez otwarty standard ISO, a przegląd ISO 32000 przygotowany przez PDF Association to dobre źródło, jeśli chcesz poznać formalne szczegóły. Praktyczny wniosek jest prosty: tekst i grafika wektorowa są maleńkie, podczas gdy obrazy są w porównaniu z nimi ogromne. Cała strona gęstego tekstu może zajmować zaledwie kilka kilobajtów. Pojedyncze zdjęcie na całą stronę może zajmować kilka megabajtów. Dlatego gdy PDF jest nieoczekiwanie duży, pierwsze pytanie, jakie należy zadać, prawie zawsze brzmi: skąd biorą się obrazy?

Przyczyna nr 1: osadzone obrazy w wysokiej rozdzielczości

To zdecydowanie najczęstszy powód, dla którego PDF puchnie do ogromnych rozmiarów. Gdy przeciągasz zdjęcie z nowoczesnego telefonu lub aparatu do dokumentu, może mieć 4000 pikseli szerokości lub więcej. Mimo że na stronie jest wyświetlane w ułamku tego rozmiaru, PDF często przechowuje pełną rozdzielczość. W przypadku dokumentu przeznaczonego do czytania na ekranie lub drukowania w normalnej jakości rzadko potrzebujesz więcej niż 150 pikseli na cal (PPI); do druku wysokiej jakości 300 PPI w zupełności wystarczy. Wszystko powyżej tego to zmarnowana waga.

Rozwiązaniem jest zmniejszenie rozdzielczości i ponowna kompresja tych obrazów przed lub po umieszczeniu ich w PDF-ie. Jeśli masz kontrolę nad obrazami źródłowymi, najpierw je zmniejsz — przepuść je przez kompresor JPEGprzy jakości 70–80 i dostosuj ich wymiary do tych, których naprawdę potrzebujesz. Jeśli obrazy są już wbudowane w PDF, przepuść cały plik przez kompresor PDF, który ponownie koduje osadzone obrazy w mniejszym, rozsądnym rozmiarze. W przypadku treści fotograficznych sam ten krok często zmniejsza plik o 80 procent lub więcej.

Przyczyna nr 2: zeskanowane strony

Zeskanowany dokument to przypadek szczególny i wyjątkowo ciężki. Gdy skanujesz papier, każda strona staje się obrazem na całą stronę — w pliku nie ma w ogóle prawdziwego tekstu, tylko obrazy tekstu. Skanery często domyślnie ustawiają bardzo wysokie wartości DPI (600 DPI to częsty przypadek) i pełny kolor, co daje ogromne pliki dla czegoś, co w istocie jest czarnym tuszem na białym papierze.

Możesz zrobić dwie rzeczy. Po pierwsze, skanuj rozsądniej: w przypadku dokumentu tekstowego skanowanie w 200–300 DPI w skali szarości lub czerni i bieli zamiast w 600 DPI w kolorze może drastycznie zmniejszyć rozmiar, pozostając przy tym doskonale czytelnym. Po drugie, w przypadku skanów, które już masz, skompresuj je ponownie — przepuszczenie pliku przez kompresor PDF ponownie koduje te obrazy stron w bardziej rozsądnej rozdzielczości i jakości. Bądź jednak realistą co do granic: skan to z natury stos obrazów, więc zawsze będzie większy niż natywnie cyfrowy PDF tekstowy o tej samej długości.

Przyczyna nr 3: osadzone czcionki i zdublowane obiekty

PDF-y osadzają używane przez siebie czcionki, aby dokument wyglądał identycznie na każdym urządzeniu — co świetnie wpływa na wierność, ale dodaje wagi. Dobrze działający eksporter tworzy podzbiory czcionek, osadzając tylko faktycznie używane znaki. Źle skonfigurowane narzędzia osadzają całą rodzinę czcionek, a dokument korzystający z kilku ozdobnych krojów może nieść ze sobą kilka megabajtów danych czcionek, których ledwie używa. Trzymanie się niewielkiego zestawu popularnych czcionek i pozwolenie oprogramowaniu na tworzenie ich podzbiorów utrzymuje to pod kontrolą.

Jest też zwykła nieefektywność. Niektóre programy zapisują ten sam obraz lub zasób w pliku wielokrotnie, zamiast odwołać się do niego raz — logo, które pojawia się w nagłówku na każdej stronie, może zostać osadzone kilkadziesiąt razy. Powtarzające się cykle „Zapisz jako” i przyrostowe edycje mogą też pozostawiać osierocone, zdezaktualizowane obiekty, które nigdy nie zostają usunięte. Ponowne zapisanie PDF-a za pomocą narzędzia, które przepisuje i usuwa duplikaty ze struktury obiektów, czyści to automatycznie.

Przyczyna nr 4: metadane, załączniki i pozostałości

Mniejsi sprawcy sumują się. PDF-y mogą zawierać metadane dokumentu, pakiety XMP, osadzone profile kolorów, miniatury, dane pól formularza, JavaScript, a nawet całe załączniki plikowe. Dokumenty eksportowane z oprogramowania projektowego czasami zawierają ukryte warstwy, komentarze lub historię wersji. Nic z tego nie jest widoczne na stronie, ale wszystko liczy się do sumy bajtów. Optymalizacja lub „spłaszczenie” PDF-a usuwa części, których nie potrzebujesz, pozostawiając widoczną treść nienaruszoną.

Gdy PDF nie chce się mocno zmniejszyć

Kompresja nie jest magią, a warto wiedzieć, kiedy osiągnęło się dno. Jeśli twój PDF to głównie prawdziwy tekst i grafika wektorowa — natywnie cyfrowy raport, umowa, listing kodu — prawdopodobnie jest już mały i niewiele można zyskać. Bajty wykonują pożyteczną pracę, a mocniejsze ściskanie nie pomoże. Duże zyski pochodzą niemal w całości z obrazów: zdjęć w wysokiej rozdzielczości i zeskanowanych stron. Jeśli ponowna kompresja tych elementów nic nie daje, twój plik prawdopodobnie od początku nie zawierał wielu obrazów.

Szybki sposób, by to zdiagnozować: zapytaj sam siebie, czy możesz zaznaczyć i skopiować tekst w dokumencie. Jeśli możesz, jest on natywnie cyfrowy, a rozmiar pochodzi z osadzonych obrazów, czcionek lub pozostałości. Jeśli nie możesz — jeśli tekst jest tylko częścią obrazu — masz skan, a zmniejszenie rozdzielczości tych obrazów stron jest twoją największą dźwignią.

Zmniejsz swój, prywatnie

Dobra wiadomość jest taka, że naprawienie tego wszystkiego nie wymaga przesyłania dokumentu nigdzie. Kompresor PDF FileShrinking działa w całości w twojej przeglądarce, więc poufna umowa czy zeskanowany dowód osobisty nigdy nie opuszcza twojego urządzenia — jest przetwarzany lokalnie i nic nie jest wysyłane na serwer. Zacznij od niego w przypadku każdego dużego PDF-a; jeśli składasz dokument z własnych zdjęć, najpierw zmniejsz je za pomocą kompresora JPEG, aby nadmiarowa waga w ogóle do niego nie trafiła. Dzięki tym dwóm narzędziom większość zbyt dużych PDF-ów schodzi do rozsądnego, przyjaznego dla poczty rozmiaru za jednym przejściem.