Scrapy через множество ссылок для получения текста

294
29 июня 2017, 01:38

Суть:

Необходимо чтобы scrapy проходил по множеству ссылок, если он парсит Bad request с html - ссылка пропускается и к id страницы добавляется 1 и так до определенного номера.

Псевдокод:

class exampleSpider(scrapy.Spider):
    name = "example"  
    allowed_domains = ["examle.com/c/test"]
    start_urls = ["examle.com/c/test/1/p"]
    max_page_index = 200000
    def parse(self, response):
             ...
             если:
                 извлеченный текст из <title></title>
                 содержит Bad Request
                 index += 1 (то есть ссылка будет в виде examle.com/c/test/2/p)
             или:
                 print(текущая ссылка валидна)
READ ALSO
Стандартный диалог настройки порта

Стандартный диалог настройки порта

Как в c# вызвать стандартный диалог настройки порта winapi?

399
Автоматизация почтовой рассылки на mac - win - C# [требует правки]

Автоматизация почтовой рассылки на mac - win - C# [требует правки]

Необходимо автоматизировать по максимуму следующие шаги: 1Скачать из интернета файл

240
Использование расширения разметки xaml в wpf?

Использование расширения разметки xaml в wpf?

Если я создаю экземпляр некого класса в c# - тот же OpenFileDialog

249
Получение значений из xml в C#

Получение значений из xml в C#

Как получить значение first_name и last_name в виде текста из этого XML?

250