Правильный подход к парсингу

272

13 января 2018, 03:23

Здравствуйте, стоит следующая задача, спарсить email адреса пользователей соц сети Мой Мир, которые проявляли недавнюю активность.

Решение я вижу таким:

1) Собираем интересующие нас страницы
2) Открываем страницу
3) В html коде проверяем чтобы значение <span class="profile__user-status"> соответствовало требуемому, например там должно быть написано "онлайн, секунд/минут/часов назад или января/февраля"
4) Если 3 пункт выполняется, то из html кода забираем информацию вида "Страница пользователя xxx@mail.ru социальной сети Мой Мир."
5) Отделяем email адрес

Готово

Желаемое время парсинга хотя бы 1000 адресов за 1 мин. Лучше конечно больше.

С такой задачей сталкиваюсь впервые. Вопрос, адекватно ли это реализовать на python? Или проще\быстрее сделать на другом ЯП (может js)? Если на другом, то на каком и почему?

Может уже есть частично готовые решения?

Если нет, то как в общих чертах можно решить мою задачу (какой подход использовать)?

Спасибо за ответы.

Answer 1

Думаю, Питон будет лучшим вариантом. Есть хорошие библиотеки разбора HTML-страниц и целая система "умного скачивания" scrapy.

Скорость будет на 99% определяться возможностью запуска многих потоков, так чтобы Вас не забанили при этом. В использовании scrapy можно найти примеры, как можно это пытаться сделать.