Пишу парсер для проекта, если коротко, то он собирает лист товаров с сайта на Bitrix, а после выводит нужную информацию.
Парсер использует CURL. После первого сбора ссылок на товары мне начало выдавать ошибку на любой запрос получить страницу сайта - получил блокировку. Скрипт для сбора проходит около 100 страниц.
Что я сделал:
curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)');Таким способом у меня получилось два раза отправить запрос на сбор ссылок, после опять блокировка. Что можете посоветовать?
Используй Python Selenium. Никакие имитации не помогут. Будут потом банить через куки потом проверять имитацию движения мыши и.т.д. - Там мозги работают над этим. Всё это обходить Selenium Driver, ровно в 10 строчек кода. Даже Яндекс не устоял. Когда Selenium сохранит все страницы, - Нужно будит лишь их прочитать парсером php. Всё...
Продвижение своими сайтами как стратегия роста и независимости