Java - как получить информацию из HTML-страницы

606

23 декабря 2016, 12:35

Пишу приложение на Java, связанное с парсингом исходного кода страницы. Вопрос заключается в следующем. Пытаюсь парсить исходный код следующим образом:

Document doc = Jsoup.connect("http://example.com/").get();

Парсится нормально. Но(!) смотрю полученый исходный код - там не все блоки. К примеру, в браузере с помощью "Исследовать элемент" я этот блок и всё, что в нем есть вижу, а в полученом исходном коде с помощью Jsoup этого блока нет. Собственно, вопрос: как парсить весь исходный код целиком?

Answer 1

Вероятнее всего желаемый элемент создается при помощи JavaScript кода запускаемым браузером и/или с помощью дополнительных API запросов. JSoup - это не браузер и в нем нет JavaScript движка. В doc Вы получаете исходный "статический" HTML.

Вариантов решить эту проблему несколько:

автоматизировать настоящий браузер через selenium, открыть желаемую страницу в selenium-powered браузере, дать ему выполнить свою работу по загрузке страницы и пропарсить нужные данные; далее либо получить исходный код страницы через getPageSource() и отдать это JSoup на парсинг, либо продолжить спользовать selenium webdriver API
инспектировать, как загружается и формируется страница (с помощью browser developer tools), если браузер делает дополнительные реквесты, повторить их в своем Java коде

Также иногда бывает, что нужные данные уже присутствуют в HTML, но только в другом месте. Например, иногда в script тегах - тоже проверьте это.

Создание сайтов в городе Ивано-Франковск

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

ClassLoader java

Класс MyClassLoader:

367

Java

Ошибки в классе Activity

Прохожу курс по Android, возникли проблемы с выполнение задания

357

Java

Расчет срока между датами

Помогите решить задачу

457

HTML

Пропал автокомплит при написании sass в sublime-text

Недавно начал использовать sass в sublime-text, так вот скажем при указании какого нибудь background-image пропал привычный автокомплит при выборе изображенияС...

447