Парсинг всего текста из html

241

20 сентября 2017, 10:08

Возникла необходимость написать свой краулер on Python. На данном этапе мне необходимо распарсить весь текст из html и удалить лишнее. Как вы понимаете, парсер должен правильно работать с разными сайтами, а у многих тэги с текстом различаются: на каких-то текст есть внутри title и h3/a, на каких-то внутри span. Как можно сделать универсальный парсер для текста? Использовать цикл и проверку на присутствующие в html тэги или есть вариант проще?

Создание Интернет магазина Ровно

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

Подробнее о сайте web-king.com.ua

ТОП-10

Все популярные вопросы

READ ALSO

Выпадающие меню по клику (без JS)

Выпадающие меню по клику (без JS)

Здравствуйте,

308

Получить данные DOM из объекта

Получить данные DOM из объекта

При нажатии на кнопку «Добавить статью», появляется форма с двумя полями: Заголовок статьи и Описание статьи и кнопкой закрытьПосле нажатия...

311

Как оформить html-страницу в виде Java-класса?

Как оформить html-страницу в виде Java-класса?

Задание лабораторной работы - оформить сайт-визитку (одна или несколько страниц)Страница должна быть реализована с использованием CSS и JS

301

Какие аналоги Notepad++ есть для mac? [требует правки]

Какие аналоги Notepad++ есть для mac? [требует правки]

Купил себе недавно мак и не нашел notepad++ для него в интеренетеКаким редактором пользуються яблокофилы?

273