интеллектуальный парсинг сайтов

372
01 декабря 2017, 06:59

Задача такая, чтобы парсер сам выдергивал ссылки на статьи, новости и т.д. с сайта. То есть без указания ему регулярок, xpath и т.д. То есть определенный алгоритм, который самостоятельно распознает именно ссылки на новости. Чтобы пропускал мимо ссылки на рубрики, категории и т.д. У newspaper нашел такое, но ему удается это проделать не с каждым сайтом. То есть где то он находит 200 линков, а где то всего лишь 1. Буду благодарен за любую наводку, может какие то библиотеки, хотя мне кажется я все пересмотрел

READ ALSO
Параметры с базой совпадают, но эту строчку базы не считает

Параметры с базой совпадают, но эту строчку базы не считает

Захожу в ниже указанный код для подтверждения comonru/activate/php&hash=1dfgFvr23 hash опознается правильно - проверял как 1dfgFvr23 Значения в базе phpMyAdmin таблица...

226
Скрывать строки с 0

Скрывать строки с 0

Есть перебор массива:

245
Бинарный файл в ZIP

Бинарный файл в ZIP

Пишу на PHP

196