Scrapy через множество ссылок для получения текста

294

29 июня 2017, 01:38

Суть:

Необходимо чтобы scrapy проходил по множеству ссылок, если он парсит Bad request с html - ссылка пропускается и к id страницы добавляется 1 и так до определенного номера.

Псевдокод:

class exampleSpider(scrapy.Spider):
    name = "example"  
    allowed_domains = ["examle.com/c/test"]
    start_urls = ["examle.com/c/test/1/p"]
    max_page_index = 200000
    def parse(self, response):
             ...
             если:
                 извлеченный текст из <title></title>
                 содержит Bad Request
                 index += 1 (то есть ссылка будет в виде examle.com/c/test/2/p)
             или:
                 print(текущая ссылка валидна)