Интерпретатор скрипта парсера

323

31 июля 2021, 18:00

Необходимо разработать приложение для парсера HTML страницы.

Веб страниц много и структуры разные, что бы не писать на каждую страницу отдельный парсер, решил автоматизировать и разработать некий интерпретатор который будет обрабатывать файл (для каждой страницы свой) содержащий некий скрипт(алгоритм парсера) с командами и параметрами, например:

class = status !&textOut //найти класс "status" и получить значение в виде текста
div_id = page_count !&textOut //найти тег div с id "page_count" и получить значение в виде текста
li !&linkOut //найти тег li и получить значение в виде ссылок

Может кто-то уже и решал подобную задачу, помогите с выбором правильного паттерна для решения данной задачи

Answer 1

Не занимайтесь велосипедостроительством. В общем и целом есть 2 подхода к парсингу HTML/XML - DOM и SAX

DOM - загружается весь документ и на гора выдается дерево документа
SAX - потоковая обработка документа, в разных тегах, нодах - срабатывают события, которые прогер и обрабатывает

SAX ваш случай. Туториал например здесь

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

DOMParser not defiend

141

javascript

область видимости AngularJs

Всем доброго времени сутокУ меня вопрос могу ли я изменить свойства $scope обычного контроллера из вне фреймворка? я использую socket io и приходящие...

180

javascript

Как метод класса может получить переменную из функции?

240

javascript

Почему RegExp test() не срабатывает для строки, похожей на IPv6? [дубликат]

Вот такой простенький пример:

209