Интерпретатор скрипта парсера

261
31 июля 2021, 18:00

Необходимо разработать приложение для парсера HTML страницы.

Веб страниц много и структуры разные, что бы не писать на каждую страницу отдельный парсер, решил автоматизировать и разработать некий интерпретатор который будет обрабатывать файл (для каждой страницы свой) содержащий некий скрипт(алгоритм парсера) с командами и параметрами, например:

class = status !&textOut //найти класс "status" и получить значение в виде текста
div_id = page_count !&textOut //найти тег div с id "page_count" и получить значение в виде текста
li !&linkOut //найти тег li и получить значение в виде ссылок

Может кто-то уже и решал подобную задачу, помогите с выбором правильного паттерна для решения данной задачи

Answer 1

Не занимайтесь велосипедостроительством. В общем и целом есть 2 подхода к парсингу HTML/XML - DOM и SAX

  1. DOM - загружается весь документ и на гора выдается дерево документа
  2. SAX - потоковая обработка документа, в разных тегах, нодах - срабатывают события, которые прогер и обрабатывает

SAX ваш случай. Туториал например здесь

READ ALSO
область видимости AngularJs

область видимости AngularJs

Всем доброго времени сутокУ меня вопрос могу ли я изменить свойства $scope обычного контроллера из вне фреймворка? я использую socket io и приходящие...

127