Суть:
Необходимо чтобы scrapy
проходил по множеству ссылок, если он парсит Bad request
с html
- ссылка пропускается и к id
страницы добавляется 1
и так до определенного номера.
Псевдокод:
class exampleSpider(scrapy.Spider):
name = "example"
allowed_domains = ["examle.com/c/test"]
start_urls = ["examle.com/c/test/1/p"]
max_page_index = 200000
def parse(self, response):
...
если:
извлеченный текст из <title></title>
содержит Bad Request
index += 1 (то есть ссылка будет в виде examle.com/c/test/2/p)
или:
print(текущая ссылка валидна)
Кофе для программистов: как напиток влияет на продуктивность кодеров?
Рекламные вывески: как привлечь внимание и увеличить продажи
Стратегії та тренди в SMM - Технології, що формують майбутнє сьогодні
Выделенный сервер, что это, для чего нужен и какие характеристики важны?
Современные решения для бизнеса: как облачные и виртуальные технологии меняют рынок
Необходимо автоматизировать по максимуму следующие шаги: 1Скачать из интернета файл
Если я создаю экземпляр некого класса в c# - тот же OpenFileDialog
Как получить значение first_name и last_name в виде текста из этого XML?