Parse HTML JavaSE

209
19 мая 2017, 13:33

Привет! Мне нужно создать утилиту scraber, которая получает веб-ресурсы по URL-адресу. Затем подсчитать количество предоставленных слов на веб-странице и количество символов(только осмысленных слов без тегов и прочего).

URL url = new URL(urlStr);
URLConnection connection = url.openConnection();
InputStream inputStream = connection.getInputStream();
BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream,"UTF-8"));

С этим я могу получить весь текст на странице (и теги html), так что я буду делать дальше? Пытался через HTMLEditorKit, но верно ли это?

Может кто-нибудь помочь мне с этим? Что, что можно почитать или откуда начать. Мне нужно использовать только JavaSE. Нельзя использовать сторонние библиотеки.

Answer 1

Если нужен текст именно на странице, я бы сделал следующее:

  1. Парсил бы только ту часть страницы, что лежит в теге (ибо имеено в теле html документа описывается значимый контент.
  2. Посмотрел бы спецификацию html, и вынес бы все возможные теги в список исключений (чтобы теги словами не считались).
  3. Посчитал бы все остальные символы В таком случае, грубый подсчёт у Вас будет.
READ ALSO
Возможно ли играть HLC в iframe?

Возможно ли играть HLC в iframe?

Всем приветВопрос заключается вот в чем: возможно ли как-либо проиграть в iframe HLC поток? Почему в iframe? Нужно взять поток оттуда и кинуть на свой...

230
Дописывать приставку к возрасту

Дописывать приставку к возрасту

Есть такой код, который считает возраст:

184
Вёрстка html письма в Outlook

Вёрстка html письма в Outlook

Подскажите, может кто сталкивался, есть ли возможность сделать картинку фоном для письма в OutlookТакой пример не работает:

378