Парсинг с JSOUP. Игнорирование тэга

302

11 октября 2017, 07:16

Я спарсил новостную страничку, используя библиотеку JSOUP и получил новость:

    Element myNew = doc.select("div#news-id-ХХХ").first();
    List<String> result = new ArrayList<>();
    extractContent(myNew, result);
    Log.d("logs", "myNew-"+myNew.toString());

Логи показывают, что мой Element с новостью имеет следующий вид:

<div id="news-id-ХХХ" style="display:inline;">       
TEXT1   
<i>TEXT2</i>TEXT3           
<br>TEXT4
</div>

Я достаю текст рекурсивным перебором нодов:

private void extractContent(Node node, List<String> result) {
    if (node instanceof TextNode) {
        String text = ((TextNode) node).text().trim();
        if (!text.isEmpty()) result.add(text); // Добавляем только непустые тексты
    } 
}

На выходе я получаю следующее:

result.get(0) = TEXT1;  
result.get(1) = TEXT2;    
result.get(2) = TEXT3;    
result.get(3) = TEXT4;

А я хочу игнорировать тэг <i>, чтобы получилось следующее:

result.get(0) = TEXT1+TEXT2+TEXT3;    
result.get(1) = TEXT4;

Подскажите, пожалуйста, как мне сделать это.

Создание сайта для строительной компании в ABCname

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

Простой сайт html css

Нужна помощь, если есть у кого сайт минималистичный html css с многими тегами html5 без каких либо наворотов, дизайна, просто что б там элементы...

264

HTML

Изменение ширины элемента на js в %

Столкнулся с такой проблемой, пока добавляю ширину в px все порядке, а в процентах выходит какая то ерунда

327

HTML

Настройка плагина календаря FullCalendar

Использую плагин календаря https://fullcalendario/

526

HTML

вопрос про flex (Css)

Здравствуйте, есть блок с width 100% (адаптивная верстка), так вот в нём есть 4 блока, как можно сделать чтобы 3й и 4й были на всю длину и переносились...

289