Facebook ВКонтакте Twitter Telegram

IndexNow и будущее сканирования Веб

Комментарии
 424
20.11.2021 | Время чтения: 4 минут
Facebook
Автор: Кевин Индиг

Известный за рубежом SEO-специалист Кевин Индиг подготовил обзорную статью, описывающую варианты и перспективы использования технологии IndexNow для ускорения индексации документов в сети Интернет.

Перевод материала подготовлен специалистами SiteAnalyzer.

***

IndexNow – это новый способ оповещения поисковых систем о появлении нового или обновленного контента. В этом посте мы постараемся прояснить, чем новая технология IndexNow отличается от классического сканирования поисковыми ботами или при помощи Sitemap.xml, и что она означает для будущего в технологиях сканирования в интернете.

IndexNow и будущее веб-сканирования

Что такое IndexNow и как его использовать

Ранее я уже объяснял, что сканирование поисковыми системами является неэффективным, устаревшим и расточительным. Вместо того, чтобы сканировать сайты, поисковые системы должны позволять владельцам сайтов самим доставлять им контент. Тенденция к индексированию при помощи API была в большей степени обусловлена поисковой системой Bing, чем Google. Может быть, потому, что Google не хочет отказываться от своей монополии на создание самого большого в мире веб-индекса. Возможно, это обусловлено техническими причинами. В любом случае, повышенная эффективность сканирования и индексации полезна для всей сети, а не только для поисковых систем, поскольку она приводит к снижению нагрузки на сервер и снижению затрат на электроэнергию.

В любом случае, предоставление контента поисковым системам через API дает четыре основных преимущества:

  • Меньше спама, потому что поисковые системы могут просто ограничивать доступ к API для спамеров.
  • Меньше проблем с рендерингом или вовсе их отсутствие, потому что поисковые системы могут запрашивать отрисованный HTML прямо с сайта.
  • Меньше расходов на ресурсы, потому что поисковым системам больше не нужно сканировать Интернет.
  • Более высокая рентабельность.

Совсем недавно Bing запустил IndexNow – открытый протокол для отправки нового контента непосредственно в поисковые системы в сотрудничестве с Яндексом и другими поисковыми системами.

IndexNow и файлы Sitemap в формате XML

IndexNow – это не полноценный API индексирования, который доставляет весь HTML-код поисковым системам, а скорее XML-карта сайта на "стероидах". Согласно официальной документации, IndexNow уведомляет поисковые системы о новых URL. Им больше не нужно сканировать карты сайта XML, которые могут быть ограничены по размеру и актуальности. Однако, вы все еще можете использовать оба варианта.

ndexNow и файлы Sitemap в формате XML

В документации также указано, что если URL-адрес меняется несколько раз в день, например, для сайта новостей или погоды, IndexNow не является оптимальным решением. Однако, поисковые системы отдают предпочтение URL-адресам, отправленным через IndexNow, по сравнению с URL-адресами, найденными другим способом. Отправленные ссылки не обязательно должны возвращать код состояния 200. Например, это может быть код 404, чтобы уведомлять поисковые системы о страницах, которые больше не доступны, или 301-й редирект для перенаправления, чтобы быстрее сканировать страницы.

URL-адреса, обнаруженные с помощью IndexNow, учитываются в бюджете сканирования (или квоте сканирования, как это называет Bing). Пока непонятно, как IndexNow изменяет бюджет сканирования, но я могу представить, что отсутствие необходимости обнаруживать URL-адреса через ссылки или карты сайта XML намного эффективнее и должно увеличивать бюджет сканирования сайта.

Как использовать IndexNow

Использовать IndexNow очень просто:

  • Перейдите к генератору ключей и сгенерируйте ключ, чтобы подтвердить право собственности на сайт.
  • Разместите ключ в текстовом файле в корневом каталоге.
  • Отправьте новые URL-адреса с параметрами через запрос GET.
  • Отслеживайте скорость сканирования и индексирование с помощью инструментов Bing или Яндекс для веб-мастеров.

Каждому хосту (субдомену) нужен свой ключ, и вы можете использовать разные ключи для каждой системы управления контентом (CMS).

Пример инструмента, отправляющего интересующие страницы поисковым системам Яндекс и Bing переобход, используя протокол IndexNow.

Роль CDN в индексировании Интернета

Многие платформы планируют внедрить IndexNow, но Cloudflare выделяется среди них по нескольким причинам. Во-первых, CDN имеют хороший «обзор» сети, а это означает, что они лучше всего подходят для отслеживания трафика ботов и людей, поскольку они проксируют множество сайтов. По данным W3C, 77% веб-сайтов не используют CDN. Но Cloudflare хорошо понимает, когда меняются URL-адреса, и может помочь поисковым системам обнаруживать изменения более эффективно.

Роль CDN в индексировании Интернета

Доля рынка на одного провайдера прокси

Во-вторых, Cloudflare выпустила продукт для решения распространенных проблем с индексацией под названием Crawler Hints. IndexNow попадает прямо в точку. Это говорит о том, что проблема, которую пытается решить IndexNow, является достаточно серьезной.

Cloudflare сообщает, что около 45% интернет-трафика исходит от ботов, в том числе 5% от «хороших ботов», таких как сканеры поисковых систем. Но 53% из этих 5% тратятся на повторное сканирование URL-адресов, которые не изменились, сканирование спама или другого нерелевантного контента. Вот где пригодятся подсказки для сканирования.

Цитата из Cloudflare:

В Cloudflare мы видим трафик от всех основных поисковых роботов и в прошлом году мы изучали, как часто эти боты повторно посещают страницу, которая не изменилась с тех пор, как они ее видели в последний раз. Каждое из этих посещений – пустая трата времени. И, к сожалению, наши наблюдения показывают, что 53% этого трафика краулера тратится впустую.

Положение CDN в веб-инфраструктуре и их широкий обзор активности трафика делает их важным партнером для IndexNow, но также и интересным средством более эффективного индексирования. Я ожидаю большего движения на этом фронте в ближайшем будущем.

Растущие боли сканирования Интернета

IndexNow предоставляет множество преимуществ. Он позволяет веб-мастерам уведомлять все поисковые системы сразу, что демократизирует индексацию и может привести к уменьшению количества ресурсов, необходимых поисковым системам для сканирования Интернета.

Поисковые системы какое-то время боролись со сканированием. Основными проблемами является спам, рендеринг javascript, а также более широкое использование тегов nofollow, что является одной из причин, по которой Google начал рассматривать nofollow больше как рекомендацию, нежели директиву.

Я не думаю, что классическая индексация Интернета при помощи ссылок – лучший вариант, и ожидаю, что все больше поисковых систем будут полагаться на веб-мастеров, которые будут сами доставлять им новый контент через API, например такие, как IndexNow.

Перевод статьи Кевина Индига «IndexNow and the future of web crawling»

Оцените статью
5/5
2



<< Назад

С нами работают