интеллектуальный парсинг сайтов

398

01 декабря 2017, 06:59

Задача такая, чтобы парсер сам выдергивал ссылки на статьи, новости и т.д. с сайта. То есть без указания ему регулярок, xpath и т.д. То есть определенный алгоритм, который самостоятельно распознает именно ссылки на новости. Чтобы пропускал мимо ссылки на рубрики, категории и т.д. У newspaper нашел такое, но ему удается это проделать не с каждым сайтом. То есть где то он находит 200 линков, а где то всего лишь 1. Буду благодарен за любую наводку, может какие то библиотеки, хотя мне кажется я все пересмотрел

ПОСЛЕДНИЕ ВОПРОСЫ

Все вопросы

ТОП-10

Все популярные вопросы

Параметры с базой совпадают, но эту строчку базы не считает

Захожу в ниже указанный код для подтверждения comonru/activate/php&hash=1dfgFvr23 hash опознается правильно - проверял как 1dfgFvr23 Значения в базе phpMyAdmin таблица...

242

PHP

Скрывать строки с 0

Есть перебор массива:

270

PHP

Как вывести сумму всех значений ячейки mysql?

Есть запрос:

227

PHP

Бинарный файл в ZIP

Пишу на PHP

218