Каким лучше образом пропарсить сайт без API?

175
28 июля 2021, 04:00

У меня есть сайт с торговой площадкой, мне нужно его пропарсить средствами php (есть ли какие то библиотеки).

  1. Проблема 1: Для того что бы перейти на эту страницу нужно авторизоваться.
  2. Проблема 2: Сам парсинг HTML кода.
  3. Проблема 3: Запуск скрипта раз в час
Answer 1
  1. Авторизация через curl
  2. Парсинг через:

*) регулярные выражения

*) через библиотеки PHP, например:

PHP Simple HTML DOM Parser
PHPQuery
Zend_DOM_Query
Nokogiri

*) Или через js, например:

PhantomJS
CasperJS
SlimerJS
Zombie.js

*) Python:

lxml
BeautifulSoup
Grab
html5lib
HTMLParser
pyQuery
xml.dom.minidom
Leaf
mechanize

*) + на иных языках

  1. Запуск через крон скрипта парсинга/обновления
READ ALSO
Как из select сделать radio?

Как из select сделать radio?

Есть форма с select которую надо перевести в radio buttonПри выборе одного из значений появляется поле для заполнения данными для этого поля

352
Много однотипных Entity Doctrine

Много однотипных Entity Doctrine

Есть много одинаковых табличек, по типу table_2019, table_2018, поля в них идентичныМожно ли как то настроить доктрину для работы с такими табличками,...

370
Преобразование даты в unix time

Преобразование даты в unix time

Сообствено вопрос таков, имеем задачу, время формата 1004

301
Как задать id странице Word Press?

Как задать id странице Word Press?

Вот есть страничка aboutphp как ей задать id ?

196