Блокировка при парсинге Bitrix PHP

226
20 апреля 2022, 02:50

Пишу парсер для проекта, если коротко, то он собирает лист товаров с сайта на Bitrix, а после выводит нужную информацию.

Парсер использует CURL. После первого сбора ссылок на товары мне начало выдавать ошибку на любой запрос получить страницу сайта - получил блокировку. Скрипт для сбора проходит около 100 страниц.

Что я сделал:

  • добавил задержку перед каждым запросом (случайно от 1 до 7 сек),
  • купил 4 ip адреса, менял их также перед каждым запросом случайно,
  • добавил имитацию браузера curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)');

Таким способом у меня получилось два раза отправить запрос на сбор ссылок, после опять блокировка. Что можете посоветовать?

Answer 1

Используй Python Selenium. Никакие имитации не помогут. Будут потом банить через куки потом проверять имитацию движения мыши и.т.д. - Там мозги работают над этим. Всё это обходить Selenium Driver, ровно в 10 строчек кода. Даже Яндекс не устоял. Когда Selenium сохранит все страницы, - Нужно будит лишь их прочитать парсером php. Всё...

READ ALSO
Как сделать возможность клиентам подключить свой домен к моему сервису

Как сделать возможность клиентам подключить свой домен к моему сервису

Подскажите, пожалуйстаЕсть сервис, который позволяет клиентам создавать свою страничку

111
Как применить анимацию притяжения/отталкивания частиц?

Как применить анимацию притяжения/отталкивания частиц?

Ребята, приветствуюПодскажите пожалуйста кто на практике сталкивался с похожей задачей ? необходимо реализовать анимацию притяжения/отталкивания...

262