Настройки программы

Содержание

Основные

Использовать только локальное подключение — в процессе обращений к поисковым системам работа будет происходить только через локальное подключение.
Использовать несколько подключений через Прокси-серверы— режим работы с использованием прокси-серверов.
Количество потоков в многопоточном режиме — потоки требуют существенных ресурсов, оптимальное количество потоков подбирается индивидуально в зависимости от производительности компьютера.
Разрешить задержки во время анализа поисковой выдачи — если включено, то после каждой загруженной страницы поисковой выдачи программа будет делать паузу в соответствии с настройками поисковой системы. По умолчанию задержки отключены.
Автоматическое распознавание CAPTCHA — Автоматическое распознавание CAPTCHA осуществляется с помощью сервисов: antigate.com, captchabot.com, ruCaptcha.com. Если автоматическое распознавание отключено, то программа будет запрашивать ввод CAPTCHA у пользователя.

Поисковые системы

Для каждой поисковой системы можно установить свои настройки задержек, а так же принудительно отключить задержки, даже если включен режим "Разрешить задержки" в настройках обновления.

Разрешить работу нескольких экземпляров в одном подключении — если отключено, то в один момент времени только один поток на каждом IP может работать с данной ПС.
Макс. количество экземпляров в одном подключении — максимальное количество потоков, которые могут одновременно работать с данной ПС на одном IP.

Паузы между блоками позволят избежать длительных нагрузок на поисковую систему. В отличие от задержек, которые используются после каждого запроса к поисковой системе и, как правило, не превышают нескольких секунд, паузы — редкие, но более длительные.

Разрешить автоматическое распознавание CAPTCHA — если отключено, то независмо от настроек автоматического распознавания будет запрошен ручной ввод CAPTCHA.
Делать паузы между блоками CAPTCHA — настройка пауз поможет избавиться от частых запросов CAPTCHA поисковыми системами. Паузы работают для каждого IP отдельно. Если съем данных идет через прокси, то при установке паузы для одного IP, программа берет следующий из списка. По окончанию паузы IP возвращается в работу.

Движок браузера — см. Браузерные движки
Максимальное количество фраз в одном сеансе — Каждый поток в программе является отдельным браузером, при запуске поток всегда имеет чистую историю(куки). Программа последовательно, один за другим отправляет запросы к поисковой системе через этот браузер. ПС может подстраивать выдачу на основе предыдущих запросов. Данная настройка устанавливает сколько фраз программа может обработать в текущем сеансе, после достижения максимального количества фраз, программа закрывает текущий браузер и открывает новый с чистой историей(куками). Установка малых значений, может повлечь за собой снижение скорости и увеличение количества Captcha.

На вкладке Подключение через прокси доступны дополнительные настройки влияющие на работу в режиме нескольких подключений через прокси-серверы.

Использование локального подключения
     Не использовать локальное подключение совместно с прокси — установлено по умолчанию.
     Использовать локальное подключение совместно с прокси
     Использовать только локальное подключение
Обработка CAPTCHA — Если отключено, то при запросе CAPTCHA произойдет переключение на другой Прокси сервер.
Использовать настройки локального подключения — Если включено, то настройки задержек и пауз берутся с вкладки локального подключения.

Профили поисковых систем

Профили — это именованные наборы настроек поисковой системы. Если настройки профиля совпадают с настройками источника, то вместо полной расшифровки параметров ПС в заголовке источника выводится имя профиля. Изменение настроек профиля не влияет на настройки источников. По умолчанию список профилей пуст.

Расширения поисковых систем

С помощью расширений поисковых систем, можно извлекать любые данные с первой страницы выдачи. Извлеченные данные будут отображены в отчете. По умолчанию, список расширений пуст, пользователь самостоятельно добавляет расширения под свои нужны.

Расширения сохраняются в настройках программы, если рабочие проекты предполагается использовать на нескольких компьютерах, то расширения необходимо переносить на другие машины с помощью функций Експорт/Импорт (каждое расширение имеет уникальный идентификатор, простой текстовый перенос расширений работать не будет).

Редактор расширения

Функция JavaScript — данный тип расширения в поле Код должен содержать функцию возвращающую значение с типом указанным в поле Тип возвращаемого значения. В коде должна быть функция с именем sp_extension, помимо этой функции в коде могут находиться и другие, вспомогательные функции.

После того как расширения добавлены в отчете Сводка по источнику появятся колонки расширений, на картинке сверху колонка Регион.

Яндекс.XML

URL для запросов — В это поле вводится ссылка из настроек Яндекс.XML или другого совместимого по формату сервиса.
Однопоточный режим — Если включено, то программа ограничивает съем данных с Яндексю.XML одним потоком.
Профили — см. Профили поисковых систем.

XMLRiver

URL для запросов — В это поле вводится ссылка из сервиса XMLRiver.

Браузерные движки

Браузерные движки — это браузеры через которые программа обращается к поисковым системам и сервисам. По умолчанию установлен движок Chromium. Список доступных движков Internet Explorer зависит от версии IE установленной на компьютере. Движок Internet Explorer (Auto detect version) автоматически определяет максимальную версию IE доступную на компьютере.

В версии программы 1.12 и более ранних использовался движок Internet Explorer 7, в версии 1.13 Internet Explorer (Auto detect version).

Если выбранный движок подходит лишь для части поисковых систем, то в программе есть возможность указать движок браузера для каждой поисковой системы отдельно.

Как выбрать оптимальный движок? Если все работает, то ничего менять не нужно. Если поисковая система часто запрашивает CAPTCHA, то попробуйте сменить движок ПС на другой.

Прокси

Источники Прокси

Список Прокси — Список HTTP прокси в формате HOST:PORT или HOST:PORT:LOGIN:PASSWORD
Список Прокси листов — Список ссылок на страницы, в которых публикуются HTTP прокси. Программа распознает прокси только в формате IP:PORT

Если галочка напротив источника не установлена — источник игнорируется.

Отчеты

Оформление отчетов

Звуки