Наличие на сайте правильного составленного robots.txt служит гарантией правильной индексации сайта поисковыми системами. Используя доступные в robots директивы (указания для поисковых роботов) мы можем разрешать и запрещать к индексированию любые страницы, разделы и даже весь сайт.
Директивы для составления правильного robots.txt
Основными директивами файла robots.txt являются:
- Имя робота которому дается указание: User-agent.
- Запрещающая индексирование директива: Disallow.
- Указание расположения карты сайта: Sitemap.
- Для робота Yandex есть специальная директива указывающая основное зеркало сайта: Host.
Запрет на индексацию определенных страниц сайта можно устанавливать как для всех роботов сразу, так и для каждого в отдельности или выборочно.
Если указание относится только к определенному роботу необходимо указывать его правильное название.
Примеры директив в robots.txt
Всем роботам разрешено индексировать все:
User-Agent: *
Disallow:
Всем роботам запрещено индексировать сайт:
User-Agent: *
Disallow: /
Запрещаем роботу Yandex индексировать каталог админки:
User-Agent: Yandex
Disallow: /admin/
Запрещаем роботу Google индексировать страницу контактов (http://site.ru/contacts.htm):
User-Agent: Googlebot
Disallow: /contacts.htm
Запрещаем всем индексировать каталог админки и страницы вначале адреса которых есть слово «admin» (например: http://admin.php):
User-Agent: *
Disallow: /admin
Как правильно составить robots.txt
В правильном robots.txt директивы для поисковых роботов должны быть расположены в четкой последовательности: от общих директив, касающихся всех, до частных — для отдельных поисковиков.
В случае создания отдельных директив для определенного робота, в указаниях даваемых ему нужно повторить общие запреты для индексирования.
Иначе в ситуации когда в общих директивах выставлен запрет, а в директиве конкретному боту не указан это воспринимается как разрешение к индексации.
Важно: роботы всегда следуют последним к ним относящимся указаниям.
Примеры:
Неправильный:
User-Agent: Yandex
Disallow: /admin/
User-Agent: *
Disallow:
Правильный:
User-Agent: *
Disallow:
User-Agent: Googlebot
Disallow: /admin/
Disallow: /contacts.htm
User-Agent: Yandex
Disallow: /admin/
Disallow: /contacts.htm
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Так-же можете почитать статью о том что запрещать к индексации поисковыми системами.
Редактируя свой robots.txt не забывайте проверять, работает ли указанная вами запрещающая директива на сервисах Google и Yandex.
Читайте также:
- Бесплатная и быстрая CMS для вашего блога
- Как дешевле купить качественные статьи — советы копирайтера со стажем
- Копирайтинг — Уникальный контент для сайта чужими руками
- Английский МФА — Начало завоевания англоязычного интернета
- Запрет доступа к сайту с домена или IP
- Платный хостинг бесплатно
- Купить домен просто, а выбрать ему имя тяжело
- Полный текст RSS новостей из сокращенного фида
- Собственный Дискус или комментарии отдельно от поста
- Самостоятельное создание логотипа для сайта онлайн