При попытке парсинга сайта с использованием cUrl выдаёт "setting cookie..."

227
23 декабря 2021, 09:30

Нужно спарсить данные с этого сайта https://bankrot.fedresurs.ru/ выдаёт сообщение "setting cookie..." выглядит так http://prntscr.com/q9gmwd использую следующий код:

$url = "https://bankrot.fedresurs.ru";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');
$content = curl_exec($ch);
print_r($content);
curl_close($ch);

Изначально выдавало ошибку 403 Forbiden я добавил отправление заголовка, чтобы сайт воспринимал как запрос от реального человека, после этого и появилось "setting cookie..." пробовал установить куки никакого эффекта это не даёт. Как можно решить эту проблему?

Answer 1

Попробуйте функцию php: file_get_contents

Пример из документации:

<?php 
  $homepage = file_get_contents('http://www.example.com/'); 
  echo $homepage; 
?>

Answer 2

Возможно сервер использует защиту от ботов с помощью cookie:

  • проверить наличие некой "магической" cookie
  • если cookie отсутствует
    • установить cookie
    • послать редирект на эту же страничку
  • если cookie присутствует - отдать страничку

Если сайт действительно заморочился с защитой от ботов, проще будет взять selenium или puppeteer/chrome-php

READ ALSO
Как отпарсить данные SQL через Python?

Как отпарсить данные SQL через Python?

Мало знаком с SQL, была поставлена задача извлечь данные столбца таблицы

157
Безопасность сервера,apache 2.4 на ubuntu 18.04

Безопасность сервера,apache 2.4 на ubuntu 18.04

Подскажите направление по защите своего сервера, на котором разместил сайтК примеру

106
Модификация ON UPDATE RESTRICT триггера

Модификация ON UPDATE RESTRICT триггера

Возникла необходимость модифицировать триггер, который обеспечивает целостность связи при операции UPDATE в родительской таблицеДвижок - MyISAM

199