Как получить ссылку на изображение, зная ссылку на HTML страницу её содержащую? [закрыто]

358

10 декабря 2016, 10:36

У меня есть массив ссылок на сайт, на котором сделан скриншот, такого типа:

мне надо получить ссылку, которая у них в body хранится на само изображение http://image.prntscr.com/image/f81b70e684b64ddf8ef64e1e2334a5d6.png в целом, ссылку можно получить просто нажав "скопировать ссылку на изображение" таких ссылок у меня 800 штук. Руками нераельно делать.

как мне программно лучше всего получить? Сайты никгода не парсил, но на уровне алгоритма все понятно. Можете покидать референсы, что посмотреть лучше всего в моем случае. Язык - пайтон

Answer 1

import requests
import lxml.html
url = 'http://prnt.sc/c0jkrl'
r = requests.get(url)
html = lxml.html.fromstring(r.text)
img = html.xpath("//*[@name='twitter:image:src']/@content")[0]

Зависимости, lxml, requests

Недостаток, нет обработки ошибок, если нет изображения или файл не получен. Функции не делал, последние 3 строки оборачиваются в функцию и ими проходятся все ссылки.