Google уточнил лимиты Googlebot и объяснил, как обрабатываются байты

Google раскрыл подробности работы своего экосистемы краулеров: какие объёмы данных Googlebot загружает, как система обрабатывает «обрезанные» файлы и какие практики помогут избежать потерь критичного контента. Информацию озвучил Gary Illyes и сопроводил публикацией в блоге разработчиков Google под заголовком «Inside Googlebot: demystifying crawling, fetching, and the bytes we process».

Содержание

Основные детали новости
Дополнительные факты
Почему это важно для SEO

Основные детали новости

Google перестал рассматривать Googlebot как один единый паук: сейчас у компании несколько краулеров под разные задачи, у каждого — свой user-agent и часто свои лимиты. Важные технические ограничения, которые теперь подтверждены напрямую, такие:

По умолчанию Googlebot загружает до 2 МБ для одного URL (PDF-файлы исключаются).
Предел в 2 МБ учитывает не только тело ответа, но и HTTP-заголовки.
Для PDF предел значительно выше — 64 МБ.
Краулеры изображений и видео имеют более гибкие пороговые значения, зависящие от продукта, для которого выполняется обход.
Если у конкретного краулера не задан явный лимит, применяется значение по умолчанию — 15 МБ вне зависимости от типа контента.

Что происходит при обходе URL с большим размером страницы:

Если HTML-документ превышает 2 МБ, Googlebot не отбрасывает такой URL: загрузка просто останавливается на границе 2 МБ и передаётся дальше.
Скачанная часть (первые 2 МБ байт) передаётся в систему индексирования и в Web Rendering Service (WRS) как будто это полный файл.
Оставшиеся байты после порога игнорируются: не скачиваются, не рендерятся и не индексируются.
Ресурсы, перечисленные в HTML (за исключением медиаконтента, шрифтов и некоторых редких типов файлов), загружаются WRS отдельно — у каждого URL свой счётчик байт. Размер родительской страницы в это не засчитывается.

Дополнительные факты

Web Rendering Service Google запускает JavaScript и выполняет клиентский код так же, как современный браузер, чтобы получить итоговое визуальное и текстовое состояние страницы. WRS подтягивает и выполняет JS и CSS, обрабатывает XHR-запросы для корректного понимания текстовой структуры и контента страницы. При этом WRS не запрашивает изображения и видео. Для каждого запрошенного ресурса также действует лимит в 2 МБ.

Google указывает на существование документации со списком разных краулеров и их user-agent, что полезно проверять при диагностике логов и настройке серверов. Кроме текстового материала, Google выпустил подкаст, где дополнительно обсуждаются тонкости работы краулеров и нюансы обработки байтов.

Почему это важно для SEO

Из первых рук стало ясно: если ключевые метаданные, канонические теги или важные элементы структурированных данных попадают за предел 2 МБ, их просто не увидят WRS и индексирующие системы. Практические выводы для оптимизаторов:

Сократите размер начального HTML. Переносите тяжёлые CSS и JavaScript в внешние файлы — они будут загружаться отдельно и имеют собственные лимиты.
Важная информация должна располагаться как можно выше в HTML-документе: метатеги, канонические ссылки, критичные блоки структурированных данных и контент, который должен быть проиндексирован без зависимости от клиентского рендеринга.
Следите за логами сервера: замедление ответа приводит к снижению частоты обхода — fetchers автоматически «отступают», чтобы не перегружать инфраструктуру.
Проверяйте, какие именно краулеры посещают сайт, и учитывайте их лимиты: изображения и видео могут обходиться иначе, чем HTML-страницы и PDF.

Для SEO-специалистов эти уточнения — не просто техническая деталь. Понимание того, какие именно байты и в каком объёме доходят до индексатора и рендерера, позволяет точнее спроектировать загрузку контента и минимизировать риск того, что важные данные останутся невидимыми для Google.

Изменения и пояснения от Google полезно учитывать при аудитах производительности и структурирования страниц: простые шаги по оптимизации порядка загрузки и сокращению начального HTML могут значительно повысить шансы на корректное индексирование и отображение в поиске.