Новостей | Акций


Технические вопросы Версия для печати
» Как мне ограничить страницы для индексации поисковыми машинами? »  22.03.2011
1487

У различных поисковых систем, таких как Google, есть так называемые "пауки" или "роботы", которые постоянно сканируют веб-контент для включения сайта в свои базы данных поисковой системы. Хотя большинство сайтов находятся в поле зрения поисковых систем в положительном свете и с высоким рейтингом, что  в поисковых системах можно перевести в эквивалент денег (к примеру коммерческие сайты), не каждый хочет показывать каждую страницу и файл, хранящийся на своем сайте. Здесь на помощь приходит файл robots.txt.

Большинство поисковых роботов работает в интересах веб-мастеров, а именно - через robots.txt можно давать указания этим самым роботам, используя стандартные наборы команд в кодировке ASCII. Когда поисковый робот посещает сайта впервые, то первое, что он делает, это проверяет каталог верхнего уровня на наличие файла с именем "robots.txt". Если в директивах, установленных в файл говорится, что робот может или не может посетить и индексировать, то они будут выполнены.

Создание файла robots.txt.

Чтобы создать файл robots.txt, просто откройте текстовый редактор Notepad, добавьте в файл ваши директивы и сохраните файл с названием robots.txt. Теперь необходимо загрузить файл на ваш сайт. Любой файл robots.txt должен иметь как минимум 2 строчки следующего формата:

User-Agent: [имя робота или * для всех роботов]

Disallow: [имя файла или папки, которую не нужно индексировать]

Если Вы хотите реализовать различные правила для всех роботов, то в строку User-Agent нужно просто включить *, это читается как 'правило для всех роботов'. Строка Disallow может содержать в себе файлы или папки, которые не должны быть проиндексованы. Каждая папка или файл в строке Disallow, должны начинаться с новой строки и команда * здесь не поддерживается.

Дополнительная информация по robots.txt и Robots Exclusion Standard могут быть найдены на http://www.robotstxt.org.