Чому мій PDF такий великий? (І як його зменшити)
Зображення у високій роздільності, скановані сторінки, вбудовані шрифти та дубльовані обʼєкти роздувають PDF. Ось що це спричиняє та як це виправити.
Ви завершили двосторінковий документ, експортували його у PDF і якимось чином отримали файл на 40 МБ, який відмовляється прикріплюватися до листа. Це напрочуд поширений досвід. PDF — це не одна річ, а контейнер, який обʼєднує текст, шрифти, зображення, векторну графіку та метадані в один файл. Коли цей файл величезний, розмір майже завжди походить від кількох конкретних винуватців. Щойно ви знаєте, кого винити, зменшити PDF стає просто. Цей посібник розглядає кожну причину та рішення, яке справді для неї працює.
Що насправді міститься всередині PDF
PDF зберігає вміст як колекцію обʼєктів: потоки тексту, дані зображень, програми шрифтів та інструкції, які розташовують їх на сторінці. Формат визначається відкритим стандартом ISO, а огляд ISO 32000 від PDF Association — хороше джерело, якщо вам потрібні формальні деталі. Практичний висновок простий: текст і векторна графіка крихітні, тоді як зображення величезні порівняно з ними. Ціла сторінка щільного тексту може важити кілька кілобайтів. Одна повносторінкова фотографія може важити кілька мегабайтів. Тож коли PDF несподівано великий, перше запитання, яке варто поставити, майже завжди таке: звідки беруться зображення?
Причина № 1: вбудовані зображення у високій роздільності
Це найпоширеніша причина, чому PDF розростається в розмірі. Коли ви перетягуєте фото із сучасного телефона чи камери в документ, воно може мати 4000 пікселів завширшки або більше. Хоча воно показується на сторінці у частці цього розміру, PDF часто зберігає повну роздільність. Для документа, призначеного для читання на екрані чи друку зі звичайною якістю, вам рідко потрібно більше ніж 150 пікселів на дюйм (PPI); для друку високої якості 300 PPI цілком достатньо. Усе понад це — змарнована вага.
Рішення полягає в тому, щоб зменшити роздільність і повторно стиснути ці зображення до або після того, як вони потраплять у PDF. Якщо ви керуєте вихідними зображеннями, зменште їх спочатку — пропустіть їх через компресор JPEGз якістю 70–80 і змініть їхній розмір до тих параметрів, які вам справді потрібні. Якщо зображення вже вбудовані в PDF, пропустіть увесь файл через компресор PDF, який повторно кодує вбудовані зображення до меншого, розумного розміру. Для фотографічного вмісту лише цей крок часто зменшує файл на 80 відсотків або більше.
Причина № 2: скановані сторінки
Сканований документ — це особливий і особливо важкий випадок. Коли ви скануєте папір, кожна сторінка перетворюється на повносторінкове зображення — у файлі немає справжнього тексту взагалі, лише картинки тексту. Сканери часто за замовчуванням використовують дуже високі значення DPI (600 DPI — звична річ) та повний колір, що створює масивні файли для того, що по суті є чорним чорнилом на білому папері.
Ви можете зробити дві речі. По-перше, скануйте розумніше: для текстового документа сканування з 200–300 DPI у відтінках сірого або чорно-білому замість 600 DPI у кольорі може кардинально зменшити розмір, залишаючись цілком розбірливим. По-друге, для сканів, які ви вже маєте, повторно стисніть їх — пропускання файлу через компресор PDF повторно кодує ці зображення сторінок до більш розумної роздільності та якості. Але будьте реалістами щодо межі: скан — це фундаментально стос зображень, тож він завжди буде більшим за цифровий від народження текстовий PDF тієї самої довжини.
Причина № 3: вбудовані шрифти та дубльовані обʼєкти
PDF вбудовують шрифти, які вони використовують, щоб документ виглядав однаково на кожному пристрої — що чудово для точності, але додає ваги. Добре налаштований експортер створює підмножини шрифтів, вбудовуючи лише ті символи, які справді використовуються. Погано налаштовані інструменти вбудовують усю родину шрифтів, і документ, який використовує кілька декоративних гарнітур, може нести кілька мегабайтів даних шрифтів, яких він заледве торкається. Дотримання невеликого набору поширених шрифтів і дозвіл вашому програмному забезпеченню створювати їхні підмножини тримає це під контролем.
Далі йде звичайна неефективність. Деяке програмне забезпечення записує те саме зображення чи ресурс у файл кілька разів замість того, щоб посилатися на нього один раз — логотип, який зʼявляється у заголовку на кожній сторінці, може бути вбудований десятки разів. Повторювані цикли «Зберегти як» та поступові редагування також можуть залишати по собі осиротілі, застарілі обʼєкти, які ніколи не очищаються. Повторне збереження PDF за допомогою інструмента, який переписує та усуває дублікати його структури обʼєктів, очищає це автоматично.
Причина № 4: метадані, вкладення та залишки
Менші внески накопичуються. PDF можуть нести метадані документа, пакети XMP, вбудовані кольорові профілі, мініатюри, дані полів форм, JavaScript і навіть цілі файлові вкладення. Документи, експортовані з програм для дизайну, іноді містять приховані шари, коментарі чи історію редагувань. Нічого з цього не видно на сторінці, але все це враховується у загальній кількості байтів. Оптимізація чи «зведення» PDF видаляє ті частини, які вам не потрібні, залишаючи видимий вміст недоторканим.
Коли PDF не дуже зменшується
Стиснення — не магія, і корисно знати, коли ви досягли дна. Якщо ваш PDF здебільшого складається зі справжнього тексту та векторної графіки — цифровий від народження звіт, договір, лістинг коду — він, імовірно, уже малий, і виграти тут майже нічого. Байти виконують корисну роботу, і тиснути сильніше не допоможе. Великі здобутки походять майже повністю від зображень: фотографій у високій роздільності та сканованих сторінок. Якщо повторне стиснення цих зображень не зрушує стрілку, ваш файл, найімовірніше, від самого початку не був насичений зображеннями.
Швидкий спосіб це діагностувати: запитайте себе, чи можете ви виділити та скопіювати текст у документі. Якщо можете — він цифровий від народження, і розмір походить від вбудованих зображень, шрифтів чи залишків. Якщо не можете — якщо текст є лише частиною картинки — у вас скан, і зменшення роздільності цих зображень сторінок — ваш найбільший важіль.
Зменшіть свій, приватно
Хороша новина в тому, що для виправлення всього цього не потрібно завантажувати ваш документ кудись. Компресор PDF від FileShrinking працює повністю у вашому браузері, тож конфіденційний договір чи сканований документ, що посвідчує особу, ніколи не залишає ваш пристрій — він обробляється локально, і нічого не надсилається на сервер. Почніть звідти з будь-яким великим PDF; якщо ви збираєте документ зі своїх власних фотографій, спершу зменшіть їх за допомогою компресора JPEG, щоб зайва вага ніколи не потрапила всередину. Між цими двома більшість завеликих PDF зменшуються до керованого, придатного для пошти розміру за один прохід.