Парсинг всего текста из html

161
20 сентября 2017, 10:08

Возникла необходимость написать свой краулер on Python. На данном этапе мне необходимо распарсить весь текст из html и удалить лишнее. Как вы понимаете, парсер должен правильно работать с разными сайтами, а у многих тэги с текстом различаются: на каких-то текст есть внутри title и h3/a, на каких-то внутри span. Как можно сделать универсальный парсер для текста? Использовать цикл и проверку на присутствующие в html тэги или есть вариант проще?

READ ALSO
Получить данные DOM из объекта

Получить данные DOM из объекта

При нажатии на кнопку «Добавить статью», появляется форма с двумя полями: Заголовок статьи и Описание статьи и кнопкой закрытьПосле нажатия...

258
Как оформить html-страницу в виде Java-класса?

Как оформить html-страницу в виде Java-класса?

Задание лабораторной работы - оформить сайт-визитку (одна или несколько страниц)Страница должна быть реализована с использованием CSS и JS

251
Какие аналоги Notepad++ есть для mac? [требует правки]

Какие аналоги Notepad++ есть для mac? [требует правки]

Купил себе недавно мак и не нашел notepad++ для него в интеренетеКаким редактором пользуються яблокофилы?

222