Не могу никак решить проблему: Пробовал использовать file_get_contents, cURL, +- proxy (на один запрос отдельный айпи), но сайт отвечает так, что все мои такие запросы блокирует или сразу, или почти сразу, может есть какая-то альтернатива или обход защиты от парсинга? Или может я что-то делаю не так?
Другие сайты ок парсит, а тот, что мне нужен не хочет. Единственный код, который испольняется (cURL)
$url = 'http://somedomain';
//$proxy = 'someip:someport';
//$proxyauth = 'user:password';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
//curl_setopt($ch, CURLOPT_PROXY, $proxy);
//curl_setopt($ch, CURLOPT_PROXYUSERPWD, $proxyauth);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_HEADER, 1);
$curl_scraped_page = curl_exec($ch);
curl_close($ch);
echo $curl_scraped_page;
в ответ получаю что-то типо: HTTP/1.1 416 Requested Range Not Satisfiable Server
После того, как добавил:
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36');
Сервер возвращает статус 200, но ничего не возвращает, только редиректит через секунд 5 на адрес, типо: http://localproject.devel/distil_r_blocked.html?requestId=b63587ec-02bd-4b67-9d24-e5851df41f20&httpReferrer=%2F
Сборка персонального компьютера от Artline: умный выбор для современных пользователей