Известный за рубежом SEO-специалист Кевин Индиг подготовил обзорную статью, описывающую варианты и перспективы использования технологии IndexNow для ускорения индексации документов в сети Интернет.
Перевод материала подготовлен специалистами SiteAnalyzer.
***
IndexNow – это новый способ оповещения поисковых систем о появлении нового или обновленного контента. В этом посте мы постараемся прояснить, чем новая технология IndexNow отличается от классического сканирования поисковыми ботами или при помощи Sitemap.xml, и что она означает для будущего в технологиях сканирования в интернете.
Что такое IndexNow и как его использовать
Ранее я уже объяснял, что сканирование поисковыми системами является неэффективным, устаревшим и расточительным. Вместо того, чтобы сканировать сайты, поисковые системы должны позволять владельцам сайтов самим доставлять им контент. Тенденция к индексированию при помощи API была в большей степени обусловлена поисковой системой Bing, чем Google. Может быть, потому, что Google не хочет отказываться от своей монополии на создание самого большого в мире веб-индекса. Возможно, это обусловлено техническими причинами. В любом случае, повышенная эффективность сканирования и индексации полезна для всей сети, а не только для поисковых систем, поскольку она приводит к снижению нагрузки на сервер и снижению затрат на электроэнергию.
В любом случае, предоставление контента поисковым системам через API дает четыре основных преимущества:
- Меньше спама, потому что поисковые системы могут просто ограничивать доступ к API для спамеров.
- Меньше проблем с рендерингом или вовсе их отсутствие, потому что поисковые системы могут запрашивать отрисованный HTML прямо с сайта.
- Меньше расходов на ресурсы, потому что поисковым системам больше не нужно сканировать Интернет.
- Более высокая рентабельность.
Совсем недавно Bing запустил IndexNow – открытый протокол для отправки нового контента непосредственно в поисковые системы в сотрудничестве с Яндексом и другими поисковыми системами.
IndexNow и файлы Sitemap в формате XML
IndexNow – это не полноценный API индексирования, который доставляет весь HTML-код поисковым системам, а скорее XML-карта сайта на "стероидах". Согласно официальной документации, IndexNow уведомляет поисковые системы о новых URL. Им больше не нужно сканировать карты сайта XML, которые могут быть ограничены по размеру и актуальности. Однако, вы все еще можете использовать оба варианта.
В документации также указано, что если URL-адрес меняется несколько раз в день, например, для сайта новостей или погоды, IndexNow не является оптимальным решением. Однако, поисковые системы отдают предпочтение URL-адресам, отправленным через IndexNow, по сравнению с URL-адресами, найденными другим способом. Отправленные ссылки не обязательно должны возвращать код состояния 200. Например, это может быть код 404, чтобы уведомлять поисковые системы о страницах, которые больше не доступны, или 301-й редирект для перенаправления, чтобы быстрее сканировать страницы.
URL-адреса, обнаруженные с помощью IndexNow, учитываются в бюджете сканирования (или квоте сканирования, как это называет Bing). Пока непонятно, как IndexNow изменяет бюджет сканирования, но я могу представить, что отсутствие необходимости обнаруживать URL-адреса через ссылки или карты сайта XML намного эффективнее и должно увеличивать бюджет сканирования сайта.
Как использовать IndexNow
Использовать IndexNow очень просто:
- Перейдите к генератору ключей и сгенерируйте ключ, чтобы подтвердить право собственности на сайт.
- Разместите ключ в текстовом файле в корневом каталоге.
- Отправьте новые URL-адреса с параметрами через запрос GET.
- Отслеживайте скорость сканирования и индексирование с помощью инструментов Bing или Яндекс для веб-мастеров.
Каждому хосту (субдомену) нужен свой ключ, и вы можете использовать разные ключи для каждой системы управления контентом (CMS).
Пример инструмента, отправляющего интересующие страницы поисковым системам Яндекс и Bing переобход, используя протокол IndexNow.
Роль CDN в индексировании Интернета
Многие платформы планируют внедрить IndexNow, но Cloudflare выделяется среди них по нескольким причинам. Во-первых, CDN имеют хороший «обзор» сети, а это означает, что они лучше всего подходят для отслеживания трафика ботов и людей, поскольку они проксируют множество сайтов. По данным W3C, 77% веб-сайтов не используют CDN. Но Cloudflare хорошо понимает, когда меняются URL-адреса, и может помочь поисковым системам обнаруживать изменения более эффективно.
Доля рынка на одного провайдера прокси
Во-вторых, Cloudflare выпустила продукт для решения распространенных проблем с индексацией под названием Crawler Hints. IndexNow попадает прямо в точку. Это говорит о том, что проблема, которую пытается решить IndexNow, является достаточно серьезной.
Cloudflare сообщает, что около 45% интернет-трафика исходит от ботов, в том числе 5% от «хороших ботов», таких как сканеры поисковых систем. Но 53% из этих 5% тратятся на повторное сканирование URL-адресов, которые не изменились, сканирование спама или другого нерелевантного контента. Вот где пригодятся подсказки для сканирования.
Цитата из Cloudflare:
В Cloudflare мы видим трафик от всех основных поисковых роботов и в прошлом году мы изучали, как часто эти боты повторно посещают страницу, которая не изменилась с тех пор, как они ее видели в последний раз. Каждое из этих посещений – пустая трата времени. И, к сожалению, наши наблюдения показывают, что 53% этого трафика краулера тратится впустую.
Положение CDN в веб-инфраструктуре и их широкий обзор активности трафика делает их важным партнером для IndexNow, но также и интересным средством более эффективного индексирования. Я ожидаю большего движения на этом фронте в ближайшем будущем.
Растущие боли сканирования Интернета
IndexNow предоставляет множество преимуществ. Он позволяет веб-мастерам уведомлять все поисковые системы сразу, что демократизирует индексацию и может привести к уменьшению количества ресурсов, необходимых поисковым системам для сканирования Интернета.
Поисковые системы какое-то время боролись со сканированием. Основными проблемами является спам, рендеринг javascript, а также более широкое использование тегов nofollow, что является одной из причин, по которой Google начал рассматривать nofollow больше как рекомендацию, нежели директиву.
Я не думаю, что классическая индексация Интернета при помощи ссылок – лучший вариант, и ожидаю, что все больше поисковых систем будут полагаться на веб-мастеров, которые будут сами доставлять им новый контент через API, например такие, как IndexNow.
Перевод статьи Кевина Индига «IndexNow and the future of web crawling»