Форум SERP Parser

Основной раздел => Планы на будущее => Тема начата: cepeus от 05 Февраль 2014, 20:29:57

Название: Алгоритм сканирования
Отправлено: cepeus от 05 Февраль 2014, 20:29:57
Для того, что бы уменьшить количество каптч и увеличить скорость сканирования предлагаю
при одном потоке и наличии нескольких источников с списке сканирования во время задержки перескакивать на другой источник. или добавить алгоритм включения более длительных пауз в сканировании по одному источнику и переключение в этот момент на другой.
Также предлагаю при увеличении количества потоков подключать вторым потоком в приоритете второй источник. А то получается, что есть несколько целей для некоторых есть два источника (яндекс и гугл). Если в очереди стоит сначала две задачи по гуглу, второй поток нагрузит опять таки сканирование по гуглу, а это увеличит количество каптч. Если программа будет брать вторым потоком яндекс - это уменьшит нагрузку на один источник.
Название: Re: Алгоритм сканирования
Отправлено: byterus от 06 Февраль 2014, 07:15:57
cepeus, в настройках ПС можно отключить работу нескольких потоков с одного IP
http://serpparser.ru/doc_options.html#search_engines
Обратите внимание на галочку Разрешить работу нескольких экземпляров в одном подключении. Попробуйте снять галочку у гугла и яндекса, тогда все будет работать так как Вы описывали. Не забудьте в настройках увеличить количество потоков, если там стоит 1.