Автор Тема: Алгоритм сканирования  (Прочитано 3430 раз)

cepeus

  • Новичок
  • *
  • Сообщений: 10
    • Просмотр профиля
Алгоритм сканирования
« : 05 Февраль 2014, 20:29:57 »
Для того, что бы уменьшить количество каптч и увеличить скорость сканирования предлагаю
при одном потоке и наличии нескольких источников с списке сканирования во время задержки перескакивать на другой источник. или добавить алгоритм включения более длительных пауз в сканировании по одному источнику и переключение в этот момент на другой.
Также предлагаю при увеличении количества потоков подключать вторым потоком в приоритете второй источник. А то получается, что есть несколько целей для некоторых есть два источника (яндекс и гугл). Если в очереди стоит сначала две задачи по гуглу, второй поток нагрузит опять таки сканирование по гуглу, а это увеличит количество каптч. Если программа будет брать вторым потоком яндекс - это уменьшит нагрузку на один источник.

byterus

  • Администратор
  • Ветеран
  • *****
  • Сообщений: 1168
    • Просмотр профиля
Re: Алгоритм сканирования
« Ответ #1 : 06 Февраль 2014, 07:15:57 »
cepeus, в настройках ПС можно отключить работу нескольких потоков с одного IP
http://serpparser.ru/doc_options.html#search_engines
Обратите внимание на галочку Разрешить работу нескольких экземпляров в одном подключении. Попробуйте снять галочку у гугла и яндекса, тогда все будет работать так как Вы описывали. Не забудьте в настройках увеличить количество потоков, если там стоит 1.