Суть:
Необходимо чтобы scrapy проходил по множеству ссылок, если он парсит Bad request с html - ссылка пропускается и к id страницы добавляется 1 и так до определенного номера.
Псевдокод:
class exampleSpider(scrapy.Spider):
name = "example"
allowed_domains = ["examle.com/c/test"]
start_urls = ["examle.com/c/test/1/p"]
max_page_index = 200000
def parse(self, response):
...
если:
извлеченный текст из <title></title>
содержит Bad Request
index += 1 (то есть ссылка будет в виде examle.com/c/test/2/p)
или:
print(текущая ссылка валидна)
Современные инструменты для криптотрейдинга: как технологии помогают принимать решения
Апостиль в Лос-Анджелесе без лишних нервов и бумажной волокиты
Основные этапы разработки сайта для стоматологической клиники
Продвижение своими сайтами как стратегия роста и независимости