Web Scrapping Node Js

152

03 марта 2021, 16:40

Какую библиотеку можно использовать для скраппинга динамических данных? Например, библиотека request присылает страницу, где еще js скрипты не выполнены и часть информации отсутствует. Возможно ли это без использования headless browsers?

Answer 1

На вскидку вот эти инструменты

http://www.nightmarejs.org/

https://www.npmjs.com/package/selenium-webdriver

https://github.com/ariya/phantomjs

Возможно ли это без использования headless browsers?

Как вариант посмотреть на какие урлы уходят запросы и что приходит в ответ. А там уже смотреть что можно сделать с данными

Answer 2

Если данные на страницу загружаются динамически, то можно попробовать собирать их прямо в JSON формате. Открываем DevTools на вкладке Network, ставим фильтр XHR и смотрим запросы к бекенду. Найдя ссылку которая подгружает данные и используя request подгружаем эти данные.

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

Gravity forms js API

Всем привет! взял пример с документации: Форма на сайте есть, айди полей и формы указаны правильно, подключен скрипт в functionsphp jquery подключен,...

165

c++

Как использовать WPF в C++ Visual Studio 2019?

В Visual Studio есть WPF для C#, но насколько я знаю есть WPF для C++, но никак не могу найти в своей студии данной функцииМожете подсказать как это сделать?

172

c++

Вылетает после ввода символа [закрыт]

Хотите улучшить этот вопрос? Обновите вопрос так, чтобы он вписывался в тематику Stack Overflow на русском

152

c++

разница между dllexport и dllimport

при создании dll файла, нужно указывать

137