Parse HTML JavaSE

246

19 мая 2017, 13:33

Привет! Мне нужно создать утилиту scraber, которая получает веб-ресурсы по URL-адресу. Затем подсчитать количество предоставленных слов на веб-странице и количество символов(только осмысленных слов без тегов и прочего).

URL url = new URL(urlStr);
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream,"UTF-8"));

С этим я могу получить весь текст на странице (и теги html), так что я буду делать дальше? Пытался через HTMLEditorKit, но верно ли это?

Может кто-нибудь помочь мне с этим? Что, что можно почитать или откуда начать. Мне нужно использовать только JavaSE. Нельзя использовать сторонние библиотеки.

Answer 1

Если нужен текст именно на странице, я бы сделал следующее:

Парсил бы только ту часть страницы, что лежит в теге (ибо имеено в теле html документа описывается значимый контент.
Посмотрел бы спецификацию html, и вынес бы все возможные теги в список исключений (чтобы теги словами не считались).
Посчитал бы все остальные символы В таком случае, грубый подсчёт у Вас будет.

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

Подробнее о сайте site-vizitka-kiev.org.ua

ТОП-10

Все популярные вопросы

Возможно ли играть HLC в iframe?

Всем приветВопрос заключается вот в чем: возможно ли как-либо проиграть в iframe HLC поток? Почему в iframe? Нужно взять поток оттуда и кинуть на свой...

277

HTML

Canvas выровнять объект по центру

333

HTML

Дописывать приставку к возрасту

Есть такой код, который считает возраст:

239

HTML

Вёрстка html письма в Outlook

Подскажите, может кто сталкивался, есть ли возможность сделать картинку фоном для письма в OutlookТакой пример не работает:

428