Блокировка при парсинге Bitrix PHP

241

20 апреля 2022, 02:50

Пишу парсер для проекта, если коротко, то он собирает лист товаров с сайта на Bitrix, а после выводит нужную информацию.

Парсер использует CURL. После первого сбора ссылок на товары мне начало выдавать ошибку на любой запрос получить страницу сайта - получил блокировку. Скрипт для сбора проходит около 100 страниц.

Что я сделал:

добавил задержку перед каждым запросом (случайно от 1 до 7 сек),
купил 4 ip адреса, менял их также перед каждым запросом случайно,
добавил имитацию браузера curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)');

Таким способом у меня получилось два раза отправить запрос на сбор ссылок, после опять блокировка. Что можете посоветовать?

Answer 1

Используй Python Selenium. Никакие имитации не помогут. Будут потом банить через куки потом проверять имитацию движения мыши и.т.д. - Там мозги работают над этим. Всё это обходить Selenium Driver, ровно в 10 строчек кода. Даже Яндекс не устоял. Когда Selenium сохранит все страницы, - Нужно будит лишь их прочитать парсером php. Всё...