Пишу парсер для проекта, если коротко, то он собирает лист товаров с сайта на Bitrix, а после выводит нужную информацию.
Парсер использует CURL. После первого сбора ссылок на товары мне начало выдавать ошибку на любой запрос получить страницу сайта - получил блокировку. Скрипт для сбора проходит около 100 страниц.
Что я сделал:
curl_setopt($curl, CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)');
Таким способом у меня получилось два раза отправить запрос на сбор ссылок, после опять блокировка. Что можете посоветовать?
Используй Python Selenium. Никакие имитации не помогут. Будут потом банить через куки потом проверять имитацию движения мыши и.т.д. - Там мозги работают над этим. Всё это обходить Selenium Driver, ровно в 10 строчек кода. Даже Яндекс не устоял. Когда Selenium сохранит все страницы, - Нужно будит лишь их прочитать парсером php. Всё...
Кофе для программистов: как напиток влияет на продуктивность кодеров?
Рекламные вывески: как привлечь внимание и увеличить продажи
Стратегії та тренди в SMM - Технології, що формують майбутнє сьогодні
Выделенный сервер, что это, для чего нужен и какие характеристики важны?
Современные решения для бизнеса: как облачные и виртуальные технологии меняют рынок
Подскажите, пожалуйстаЕсть сервис, который позволяет клиентам создавать свою страничку
Ребята, приветствуюПодскажите пожалуйста кто на практике сталкивался с похожей задачей ? необходимо реализовать анимацию притяжения/отталкивания...