Я спарсил новостную страничку, используя библиотеку JSOUP и получил новость:
Element myNew = doc.select("div#news-id-ХХХ").first();
List<String> result = new ArrayList<>();
extractContent(myNew, result);
Log.d("logs", "myNew-"+myNew.toString());
Логи показывают, что мой Element с новостью имеет следующий вид:
<div id="news-id-ХХХ" style="display:inline;">
TEXT1
<i>TEXT2</i>TEXT3
<br>TEXT4
</div>
Я достаю текст рекурсивным перебором нодов:
private void extractContent(Node node, List<String> result) {
if (node instanceof TextNode) {
String text = ((TextNode) node).text().trim();
if (!text.isEmpty()) result.add(text); // Добавляем только непустые тексты
}
}
На выходе я получаю следующее:
result.get(0) = TEXT1;
result.get(1) = TEXT2;
result.get(2) = TEXT3;
result.get(3) = TEXT4;
А я хочу игнорировать тэг <i>, чтобы получилось следующее:
result.get(0) = TEXT1+TEXT2+TEXT3;
result.get(1) = TEXT4;
Подскажите, пожалуйста, как мне сделать это.
Апостиль в Лос-Анджелесе без лишних нервов и бумажной волокиты
Основные этапы разработки сайта для стоматологической клиники
Продвижение своими сайтами как стратегия роста и независимости