Как правильно парсить HTML

294
16 января 2017, 19:00

Вступление:
Хочу разобраться с работой браузера, поэтому пишу свой.
Написал кое-как работающую версию, в которой парсер просто вытаскивает из <*> теги, разбивает их на имя и аттрибуты и создает для каждого тега отдельный узел DOM дерева. Пока писал парсер это казалось хорошей идеей, но как только начал деать рендер стало ясно, что это не так. Так как каждый тег у меня это отдельный виджет(использую Qt) и друг в друге с разными свойствами они отображаются некорректно. Придумал даже примено как это исправить, но не хотелось бы тратить время на то чтобы это написать, а потом найти в этом еще какую-нибудь дыру, чтобы потом заного переписывать. Хочу для начала узнать как это правильно делается, а потом от этого отталкиваться.

Суть: Нужна информация о том как правильно парсить HTML в DOM. Из чего-то годного нашел лишь спецификации w3c по HTML5, но мои знания английского не позволяют мне в этом разобраться, не затратив на это огромного количества времени. Есть ли перевод данных спецификаций или может быть любая другая годная литература/статьи на эту тему?

READ ALSO
gulp сборка на веб хост

gulp сборка на веб хост

есть gulp сборка сайта, ее нужно выложить в сеть на хост, загружаю папку build на хост и при открытии сайт/indexhtml открывается пустая страница, но с нужным...

315
Помогите написать скрипт, уже какой день не могу логику продумать

Помогите написать скрипт, уже какой день не могу логику продумать

Надо из БД(phpMyAdmin) вытащить значении и сделать так что один из них был checked

229
ASP NET Запрос SQL C# запись в List

ASP NET Запрос SQL C# запись в List

привет есть код

261
Помогите перевести небольшой код из C в C#

Помогите перевести небольшой код из C в C#

Данный код рисует некий фрактал

324