Telegram ВКонтакте VC.ru

BatchURLScraper

Программа BatchURLScraper предназначена для извлечения данных со страниц сайтов по списку URL. Доступен парсинг (веб скрейпинг) методами XPath, CSSPath, XQuery, RegExp и HTML templates.

BatchURLScraper, парсинг и бесплатное извлечение данных с сайтов

Настройка правил извлечения данных

Правила извлечения данных через XPath, CSSPath, RegExp

Тестирование правил

Тестирование правил

Общие настройки

Настройки скрапера, парсера, список прокси

Условия распространения программы: БЕСПЛАТНО




Основные возможности

  • Парсинг и извлечение данных по списку URL
  • Гибкая настройка парсинга используя XPath, CSSPath, XQuery, RegExp и HTML templates
  • Модуль для тестирования правил парсинга
  • Возможность использования списков Proxy
  • Экспорт отчетов в Excel (CSV-формат)

Отличия от аналогов

  • Многопоточность и высокая скорость парсинга
  • Портативный формат (работает без установки на ПК или прямо со сменного носителя)
  • Бесплатное распространение

История версий

Программа BatchURLScraper внедрена в SiteAnalyzer в виде отдельного модуля и в текущем виде более развиваться не будет. Подробнее...

Версия 1.4 (build 29), 27.04.2021:

  • исправлено зависание программы, если данные по одному из правил не были найдены

Версия 1.4 (build 28), 25.02.2021:

  • исправлена некорректная работа программы с потоками
  • число ошибок при проверке URL должно стать ощутимо меньше

Версия 1.4 (build 27), 08.12.2020:

  • исправлена ошибка с валидацией HTML-темплейтов
  • оптимизирована работа с регулярными выражениями
  • добавлена возможность неучета повторений при скрейпинге

Версия 1.4 (build 26), 07.12.2020:

  • исправлена проблема с учетом пауз между запросами
  • диапазон пауз между запросами расширен до полутора минут
  • доработан и улучшен перевод программы
  • устранены утечки памяти

Версия 1.3 (build 25), 26.11.2020:

  • расширено число страниц для парсинга с 1000 до 5000 URL
  • добавлена возможность скрапинга через HTML templates
  • добавлена возможность извлечения данных через атрибуты CSS
  • добавлена возможность скрапинга через внешний и внутренний HTML
  • добавлена возможность использования списков Proxy
  • исправлен баг некорректного сохранения User-Agent

Версия 1.2 (build 19), 17.11.2020:

  • добавлен метод скрапинга через XQuery
  • оптимизирован парсинг HTML-кода
  • оптимизирована настройка фильтров для извлечения данных
  • оптимизирована настройка пресетов для парсинга
  • добавлен модуль для тестирования правил парсинга

Версия 1.1 (build 12), 04.11.2020:

  • добавлен многопоточный парсинг и извлечение данных по списку URL (до 10 потоков одновременно)
  • добавлена гибкая настройка фильтров для извлечения данных
  • добавлен экспорт результатов в Excel (CSV)

Версия 1.0 (build 6), 29.10.2020:

  • парсинг и извлечение данных по списку URL
  • использование методов скрапинга через XPath, CSSPath, RegExp
  • сохранение пресетов для парсинга


Минимальные системные требования:
– 500 МГц (рекомендуется: 1 ГГц или выше)
– 1 ГБ RAM (рекомендуется: 2 ГБ или выше)
– Microsoft Windows XP/2003/Vista/7-10
– выход в интернет




0 комментариев

Чтобы оставить комментарий необходимо авторизоваться.


<< Назад

С нами работают