Цикл парсера и пагинация

153

23 мая 2021, 01:50

Парсер сайтов на DiDOM. Упрощенно код:

<?php
// Заходим на страницу каталога товаров
$document = new Document('https://www.site.ru/tovar-527_1133.html', true, 'windows-1251');
// Получаем массив ссылок на каждый товар
$links = $document->find('table.infoBox')[4]->find('td.4 tr td a::attr(href)');
// Начинаем обработку массива
foreach ($links as $key => $value) 
  { 
    // Тут вычленяем url
    $dodo = $value;
    $massa = "$dodo";
    // Передаем url для создание документа
    $document = new Document($massa, true, 'windows-1251');
//на этом месте код для получения многочисленных данных

//Подключаем процессор движка для создания ресурсов    
    include '../create_processor.php';  
}

С парсингом одной страницы каталога справляется. Вопрос - как обходить следующие страницы каталога через пагинацию? Не могу понять правильную логику, как организовать?

Answer 1

Логика может быть такова: - страницы пагинации как-то отображаются на странице - поэтому, отлавливаете через условие в парсере следующую страницу и вновь запускаете цикл и сохраняете/используете какждую порцию соответственно вашим нуждам. При получении последней страницы цикл останавливается, с какими-то оконечными действиями.