Программа BatchURLScraper предназначена для извлечения данных со страниц сайтов по списку URL. Доступен парсинг (веб скрейпинг) методами XPath, CSSPath, XQuery, RegExp и HTML templates.
Настройка правил извлечения данных
Тестирование правил
Общие настройки
Условия распространения программы: БЕСПЛАТНО
Основные возможности
- Парсинг и извлечение данных по списку URL
- Гибкая настройка парсинга используя XPath, CSSPath, XQuery, RegExp и HTML templates
- Модуль для тестирования правил парсинга
- Возможность использования списков Proxy
- Экспорт отчетов в Excel (CSV-формат)
Отличия от аналогов
- Многопоточность и высокая скорость парсинга
- Портативный формат (работает без установки на ПК или прямо со сменного носителя)
- Бесплатное распространение
История версий
Программа BatchURLScraper внедрена в SiteAnalyzer в виде отдельного модуля и в текущем виде более развиваться не будет. Подробнее...
Версия 1.4 (build 29), 27.04.2021:
- исправлено зависание программы, если данные по одному из правил не были найдены
Версия 1.4 (build 28), 25.02.2021:
- исправлена некорректная работа программы с потоками
- число ошибок при проверке URL должно стать ощутимо меньше
Версия 1.4 (build 27), 08.12.2020:
- исправлена ошибка с валидацией HTML-темплейтов
- оптимизирована работа с регулярными выражениями
- добавлена возможность неучета повторений при скрейпинге
Версия 1.4 (build 26), 07.12.2020:
- исправлена проблема с учетом пауз между запросами
- диапазон пауз между запросами расширен до полутора минут
- доработан и улучшен перевод программы
- устранены утечки памяти
Версия 1.3 (build 25), 26.11.2020:
- расширено число страниц для парсинга с 1000 до 5000 URL
- добавлена возможность скрапинга через HTML templates
- добавлена возможность извлечения данных через атрибуты CSS
- добавлена возможность скрапинга через внешний и внутренний HTML
- добавлена возможность использования списков Proxy
- исправлен баг некорректного сохранения User-Agent
Версия 1.2 (build 19), 17.11.2020:
- добавлен метод скрапинга через XQuery
- оптимизирован парсинг HTML-кода
- оптимизирована настройка фильтров для извлечения данных
- оптимизирована настройка пресетов для парсинга
- добавлен модуль для тестирования правил парсинга
Версия 1.1 (build 12), 04.11.2020:
- добавлен многопоточный парсинг и извлечение данных по списку URL (до 10 потоков одновременно)
- добавлена гибкая настройка фильтров для извлечения данных
- добавлен экспорт результатов в Excel (CSV)
Версия 1.0 (build 6), 29.10.2020:
- парсинг и извлечение данных по списку URL
- использование методов скрапинга через XPath, CSSPath, RegExp
- сохранение пресетов для парсинга
Минимальные системные требования:
– 500 МГц (рекомендуется: 1 ГГц или выше)
– 1 ГБ RAM (рекомендуется: 2 ГБ или выше)
– Microsoft Windows XP/2003/Vista/7-10
– выход в интернет