Что такое «краулинговый бюджет» для Google – бота?

Сегодня мы поговорим о краулинговом бюджете на примере Google, из чего он строится и от чего зависит.

20 January, 17:32
Ирина Румянцева
SEO-менеджер
5222
1

Краулинговый бюджет - количество страниц, которые Googlebot хочет и может просканировать на определенном сайте.

Что такое «краулинговый бюджет» для Google – бота?

В последнее время мы слышим достаточно много вариантов определения «краулингового бюджета», но нет единого термина, которым можно было бы описать все возможности «краулинга».

Лимит скорости обхода страниц

Googlebot предназначен для того, чтобы делать обход страниц, не мешая пользователям просматривать страницы сайта. Потому существует лимит скорости сканирования, препятствующий обработке слишком большого количества страниц сайта, и как следствие – повышение нагрузки на сервер.

Иначе говоря, лимит краулинга означает количество возможных одновременных соединений, используемых Googlebot для сканирования страниц сайта и время ожидания между посещениями новых страниц.

Скорость сканирования может повысится или наоборот понизиться, и зависит это от вида краулинга:

  • Естественный краулинг: если сервер быстро отвечает на запросы googlebot, то может быть использовано больше соединений для сканирования контента, соответственно выше скорость. Если сайт отвечает медленно, выдает ошибки сервера – то будет использовано меньшее число соединений googlebot, а значит и ниже скорость.
  • Лимитированный краулинг: если скорость обхода страниц сайта задается веб-мастером вручную. Однако, увеличение скорости краулинга таким способом не приведет к автоматическому усилению скорости обхода страниц.

Краулинговый спрос

Даже если предел скорости обхода страниц не был достигнут, но необходимости в индексации не возникает, нет спроса – то и активность Goooglebot будет низкой.

На определение спроса сканирования страниц влияют 2 фактора:

  • Популярность: известные домены (url) имеют неоспоримый приоритет и спрос к сканированию страниц, таким образом поддерживая свежий индекс в выдаче.
  • Свежесть: система Google следит за тем, чтобы индекс избавлялся от устаревших url-ов.

Кроме этого, увеличение краулинг – спроса может быть инициировано крупным событием на сайте, например, его перенос или переиндексация страниц под новыми URL – адресами.

Таким образом, скорость краулинга и спрос образуют краулинговый бюджет – количество страниц, которые Googlebot хочет и может просканировать на определенном сайте.

Что может влиять на краулинговый бюджет?

  • Ограниченная навигация и идентификация сеанса;
  • Дублированный контент на сайте;
  • Страницы ошибки – soft 404;
  • Взломанные страницы;
  • Бесконечные пространства и прокси – сервера;
  • Некачественный контент или спам.

Перерасход ресурсов сервера влечет за собой понижение активности Googlebot'a что может стать последствием задержки в обходе новых страниц сайта.

Таким образом, краулинговый бюджет сейчас не является поводом для беспокойства владельцев большинства сайтов. Если сайт имеет меньше нескольких тысяч страниц и url-ов, то новые страницы как правило попадают под обход робота буквально в день публикации, а значит поводов для беспокойства нет, и большая часть контента сайта будет просканирована быстро и эффективно.

Поэтому определение приоритетов: что сканировать, когда сканировать, сколько ресурсов сервера отдать для этого - наиболее важно для больших сайтов и сайтов с динамически страницами.

Совет эксперта:

Всегда легче предупредить болезнь, чем ее «лечить». Рекомендуем Вам внимательно относится к выбору хостинг – провайдера, а также следить за отчетом «Ошибки сканирования» в веб-мастерской Google. 

Комментарии (1)

Аватар пользователя irmaseo.ru
irmaseo.ru
26.06.2020
 
Очень полезная информация, спасибо

Добавление комментария:

Подписаться на новые статьи

Подпишитесь на новые статьи и вы будете получать самые свежие новости прямо к вам на почту