Как правильно парсить HTML

294

16 января 2017, 19:00

Вступление:
Хочу разобраться с работой браузера, поэтому пишу свой.
Написал кое-как работающую версию, в которой парсер просто вытаскивает из <*> теги, разбивает их на имя и аттрибуты и создает для каждого тега отдельный узел DOM дерева. Пока писал парсер это казалось хорошей идеей, но как только начал деать рендер стало ясно, что это не так. Так как каждый тег у меня это отдельный виджет(использую Qt) и друг в друге с разными свойствами они отображаются некорректно. Придумал даже примено как это исправить, но не хотелось бы тратить время на то чтобы это написать, а потом найти в этом еще какую-нибудь дыру, чтобы потом заного переписывать. Хочу для начала узнать как это правильно делается, а потом от этого отталкиваться.

Суть: Нужна информация о том как правильно парсить HTML в DOM. Из чего-то годного нашел лишь спецификации w3c по HTML5, но мои знания английского не позволяют мне в этом разобраться, не затратив на это огромного количества времени. Есть ли перевод данных спецификаций или может быть любая другая годная литература/статьи на эту тему?

Создание интернет-магазина игрушек в ABCname

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

gulp сборка на веб хост

есть gulp сборка сайта, ее нужно выложить в сеть на хост, загружаю папку build на хост и при открытии сайт/indexhtml открывается пустая страница, но с нужным...

315

Помогите написать скрипт, уже какой день не могу логику продумать

HTML

Как правильно парсить HTML

gulp сборка на веб хост

Помогите написать скрипт, уже какой день не могу логику продумать

ASP NET Запрос SQL C# запись в List

Помогите перевести небольшой код из C в C#