Как работают поисковые боты?

142
14 марта 2019, 16:10

У меня есть идея написать небольшой поисковик под свои задачи, сделал ряд парсеров для анализа нужных мне сайтов, но их очень быстро банят. Возник вопрос: как работает поисковой бот (к примеру Яндекса)? Ведь насколько я понимаю поисковой бот это тот же самый парсер, и ему нужно обойти сайт, но при этом сайты его не блокируют. Помогите разобраться как поисковые боты обходят сайты.

Answer 1

Заходят на главную страницу сайта и следуют по всем ссылкам на ней. На внутренних точно так же. У вас же проблема не с тем, как работает, а "почему не банят". Потому, что яндекс/гугл. Их узнают по заголовкам запроса и/или reverse DNS и если сайт хочет быть проиндексированным, то вынужден не блокировать поисковых роботов. Чтобы вас не блокировали можно:

  1. использовать прокси
  2. обходить сайты очень аккуратно, а не 5 потоков по 200 url/s
  3. использовать другой хостинг. Выш IP, с которого ходит бот может быть в каком-то блек-листе.
READ ALSO
PHPExcel кодировка русских символов

PHPExcel кодировка русских символов

Вроде делаю все по инструкции

167
Пагинация на странице Wordpress

Пагинация на странице Wordpress

Подскажите пожалуйста, не могу настроить пагинацию на сайтеСайт самописный, настроил вывод по нужному количеству постов (по 5, а всего их 15) на странице...

170
PHP, phpMyadmin | Как удалить данные из таблицы mySQL

PHP, phpMyadmin | Как удалить данные из таблицы mySQL

Где ошибка в коде? Не выводит nice на странице + не удаляет данные из таблицыКод:

173
Как вывести данные MYSQL в виде таблицы?

Как вывести данные MYSQL в виде таблицы?

Всем привет! Я создал базу данных 'registration' в Mysql PHPmyAdmin и таблицу users, где хранится email и usernameКод PHP:

140