Telegram ВКонтакте VC.ru

FAQ

Ответы на часто задаваемые вопросы

Вопросы-ответы

Чем SiteAnalyzer лучше аналогов (Screaming Frog, Netpeak Spider, etc.)?

На наш взгляд, основными преимуществами SiteAnalyzer перед конкурентами являются:

  1. Высокая скорость сканирования сайтов, не уступающая в скорости конкурентам.
  2. Возможность хранения проектов в виде списка, а не загрузка их по одному, как это реализовано у большинства конкурентов.
  3. Набор функций SiteAnalyzer на 80% повторяет аналогичные функции у платных аналогов, поэтому у вас не будет недостатка в привычных инструментах для анализа сайта.

В ближайшее время мы планируем реализовать все основные инструменты, присутствующие у наших конкурентов, а также добавить собственные, для более продуктивной работы.

Реально ли сканировать сайты размером в 1 миллион страниц и более?

Тестирование программы проводилось в двух системах: ОС Windows XP и Windows 10.

  • Windows XP x32 (3 Гб RAM):
    • просканировано URL (html-страницы): 92 000
    • проанализировано URI (страницы, изображения, скрипты, документы и т.п.): 296 316
    • затрачено времени: 2 часа 50 минут
  • Windows 10 x64 (8 Гб RAM):
    • просканировано URL (html-страницы): 118 000
    • проанализировано URI (страницы, изображения, скрипты, документы и т.п.): 2 334 260
    • затрачено времени: 6 часов 12 минут

Таким образом, можно сделать вывод, что программа способна сканировать сайты практически любого объема – всё упирается в объем установленной оперативной памяти на вашем ПК. Чем памяти больше – тем больше программа просканирует страниц на сайте.

P.S. Присылайте свои рекорды числа просканированных страниц (желательно со скриншотами) и мы выложим их в данный FAQ.

Какое количество итераций рекомендовано для расчета PageRank?

Чем больше итераций – тем меньше погрешность при расчетах.
Например, после 10-й итерации значение веса меняется на тысячные и десятитысячные доли, т.е. значения столь малые, которыми уже можно пренебречь.
А чтобы наглядно увидеть разницу веса, достаточно даже пары итераций.
Мы рекомендуем использовать 10 итераций.

Как сохранить все проекты при обновлении версии программы?

При обновлении версии программы обычно результаты прошлых сканирований сохраняются, однако, когда меняется структура базы данных (такое бывает при крупных обновлениях), то приходится сканировать проекты заново.

Оптимально это делать так:

  • Запускаем текущую версию.
  • В списке проектов выделяем нужные сайты.
  • Через контекстное меню копируем их в буфер обмена.
  • Запускаем новую версию программы.
  • Добавляем пакетно скопированные сайты (нажимаем на плюс и вставляем URL из буфера обмена).
  • Пересканируем нужные сайты по мере необходимости.
  • Profit!

Что означает сообщение о нехватке ресурсов в логе программы?

Во время сканирования сайтов больших объемов с большим числом потоков в логе может возникать подобное сообщение: "Из-за нехватки ресурсов компьютера сканирование проекта остановлено. Рекомендуем изменить настройки сканирования".

Из-за нехватки ресурсов компьютера сканирование проекта остановлено

Данное сообщение возникает во время работы программы при нехватке системных ресурсов в операционной системе. При этом сканирование текущего проекта автоматически останавливается. Это сделано для предотвращения возникновения системных ошибок и корректной записи данных в базу.

Для предотвращения появлений подобных сообщений рекомендуется увеличить объем оперативной памяти вашего компьютера, перейти на 64-разрядную Windows, а также оптимизировать параметры сканирования в настройках программы (уменьшить число потоков, ограничить число страниц сайта для парсинга).

Не сканируются сайты на Tilda, в чем может быть причина?

При попытке сканирования проектов на конструкторе сайтов Tilda зачастую может выдаваться редирект 307, при этом сканирование сайта будет остановлено. Это реакция их внутренней защиты от DDoS на парсинг сайта. Как вариант решения проблемы – поставить длительные задержки между запросами в настройках программы (5-10 секунд), однако не факт, что это поможет решить проблему.

Официальный комментарий техподдержки Tilda: Это перенаправление делает встроенная комплексная система защиты от DDoS. Если вы продолжите пользоваться сканерами сайтов, то данная защита будет срабатывать чаще. В данном случае сработала проверка на «человека» и сервис её не прошёл. Отключить защиту мы не можем, так как это для безопасности всех сайтов. На поисковые роботы защита не включается.

Сканирование сайтов на технологии Javascript

В: Здравствуйте. Добавляю сайт на сканирование, но программа видит всего несколько страниц, хотя на сайте достаточно большой каталог более 3000 страниц. Подскажите пожалуйста, что я делаю не так?

О: Ваш сайт сделан с использованием технологии JavaScript, поэтому так как на данный момент SiteAnalyzer не умеет рендерить подобного рода сайты, то сканер не видит всех актуальных ссылок на другие страницы сайта, в результате получается так мало результатов. Поддержку рендера сайтов на JavaScript планируется реализовать в ближайших версиях.

При сканировании сайта программа находит много страниц с ошибкой 403

В: Однако при переходе на эти страницы они загружаются и отдают код 200. Подскажите пожалуйста, почему так?

О: Если сайт на Битриксе, то скорее всего срабатывает специальный модуль, предназначенный для защиты от DDoS атак и частых запросов к сайту с одного IP, поэтому через какое-то время страницы с ошибкой 403 могут снова отдавать код 200. Для обхода подобных блокировок можно использовать прокси.

На скольких потоках лучше парсить сайты?

В: Вчера-сегодня парсил сайт на 100к+ ссылок. Со второй попытки на 40 потоках. Все сделал, доволен. На скольких потоках вообще лучше парсить такие объемы? Я понимаю, чем больше потоков, тем выше вероятность пропустить некачественную ссылку.

О: Чем больше потоков – тем больше нагрузка на сервер и тем больше вероятность ошибок 500, например. Я обычно тестирую на 10 потоках. Если сервер мощный – можно 20 и больше.
Также число потоков влияет на скорость записи данных на диск: если много потоков и обычный HDD, то это может работать ощутимо медленнее, чем на SSD.

Что делать, если при вводе ключа программа пишет, что уже зарегистрирована?

В этом случае в личном кабинете в разделе «Устройства» удалите все ваши устройства, а затем заново введите ключ в окне регистрации программы.

Программа не сканирует сайт. Что делать?

Если программа не сканирует какой-либо сайт – можно попробовать сменить юзер-агент на Yandexbot или Googlebot в настройках программы, раздел «User-Agent».

Как обойти сайт на Cloudflare?

В: Пытаюсь обойти свой же сайт, который стоит на Cloudflare (популярная система защиты от DDoS-атак). В ответ получаю ошибку 403. Что делать?

О: Обойти это можно добавив в настройки исключение для SiteAnalyzer.
Правило внутри Cloudflare: Security -> WAF -> Create rule (скриншот с примером).

Не могу зарегистрировать программу. Как быть?

Ошибка «Failure when receiving data from the peer», вознакающая при вводе регистрационного ключа, говорит о том, что программа не может получить доступ к сайту для проверки валидности ключа. Скорее всего, соединение блокируется антивирусом или файрволом. Попробуйте их отключить, добавить программу в список исключений либо в «доверенные» приложения.

Запросы в секунду

В: Подскажите, как нужно выставить настройки, чтобы настроить сканирование сайта не более 4-х запросов в секунду?

О: Четыре (4) запроса в секунду это один поток и параметр «Задержка между запросами» = 250 (миллисекунд).

Системные требования

Установка SiteAnalyzer не имеет особых системных требований. Если Ваш компьютер справился бы с установкой Windows XP и выше, то с него можно спокойно запускать программу проводить аудит сайтов без каких-либо проблем.

Версии Microsoft Windows: 11/10/8/7/Vista/XP (32 & 64-bit).

Можно ли запустить SiteAnalyzer на Linux и MacOS?

На данный момент существует полноценная версия только под ОС Windows, разработка под прочие платформы на данный момент не ведется.

Однако, выход есть!

  • На OS Linux можно запустить SiteAnalyzer используя Wine (это альтернативная реализация Win32 API, позволяющая пользователям UNIX-подобных операционных систем исполнять 32- и 64-битные приложения). Справка по Wine.
  • На macOS можно запустить SiteAnalyzer используя CrossOver (программа, позволяющая запускать приложения, написанные для ОС Microsoft Windows в ОС Linux и macOS, при этом наличие установленной Windows не требуется). Справка по CrossOver.

SiteAnalyzer на Linux и MacOS

С нами работают