Здравствуйте, стоит следующая задача, спарсить email адреса пользователей соц сети Мой Мир, которые проявляли недавнюю активность.
Решение я вижу таким:
1) Собираем интересующие нас страницы
2) Открываем страницу
3) В html коде проверяем чтобы значение <span class="profile__user-status"> соответствовало требуемому, например там должно быть написано "онлайн, секунд/минут/часов назад или января/февраля"
4) Если 3 пункт выполняется, то из html кода забираем информацию вида "Страница пользователя xxx@mail.ru социальной сети Мой Мир."
5) Отделяем email адрес
Готово
Желаемое время парсинга хотя бы 1000 адресов за 1 мин. Лучше конечно больше.
С такой задачей сталкиваюсь впервые. Вопрос, адекватно ли это реализовать на python? Или проще\быстрее сделать на другом ЯП (может js)? Если на другом, то на каком и почему?
Может уже есть частично готовые решения?
Если нет, то как в общих чертах можно решить мою задачу (какой подход использовать)?
Спасибо за ответы.
Думаю, Питон будет лучшим вариантом. Есть хорошие библиотеки разбора HTML-страниц и целая система "умного скачивания" scrapy.
Скорость будет на 99% определяться возможностью запуска многих потоков, так чтобы Вас не забанили при этом. В использовании scrapy
можно найти примеры, как можно это пытаться сделать.
Кофе для программистов: как напиток влияет на продуктивность кодеров?
Рекламные вывески: как привлечь внимание и увеличить продажи
Стратегії та тренди в SMM - Технології, що формують майбутнє сьогодні
Выделенный сервер, что это, для чего нужен и какие характеристики важны?
Современные решения для бизнеса: как облачные и виртуальные технологии меняют рынок
Использую googlemap
Недавно я создал код, который бы генерировал поле 50x50 клетокВыглядело это примерно так: