Индексируя содержание нашего сайта поисковые системы, при помощи сложных алгоритмов определяют значимость каждой страницы, которая уменьшается при наличии на сайте дублированного контента (идентичных по содержанию участков текста).
Чтобы избежать этого, необходимо запрещать индексирование таких страниц.
Где и как можно запретить индексацию страниц
Как запретить индексировать страницы в robots.txt
Чтобы не разрешать индексирование определенного раздела сайта (в примере запрещен доступ к разделу с админкой) в robots.txt пишем:
User-Agent: *
Disallow: /admin/
А так мы запретим доступ не только к разделу но и ко всем страницам, адрес которых начинается с admin.
User-Agent: *
Disallow: /admin
Так можно установить запрет на раздел второго уровня:
User-Agent: *
Disallow: /*/admin/
Для запрета определенной страницы пишем:
User-Agent: *
Disallow: /my_page.html
Для установки запрета определенному поисковику, вместо звездочки указываем его имя:
User-Agent: Yandex
Disallow: /admin/
или
User-Agent: Google
Disallow: /admin/
Как запретить индексировать в META тегах
Для запрета поисковикам к индексированию определенных страниц сайта можно так-же использовать специальные предназначенные для роботов META теги, которые должны находиться между тегами <HEAD>…</HEAD> HTML кода нашей страницы.
Запрет индексирования страницы:
<META NAME="ROBOTS" CONTENT="NOINDEX">
Индексирование разрешено, следовать по ссылкам запрещено:
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Запрещено индексирование и следовать по ссылкам страницы:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Кроме этого вы можете запретить поисковым роботам в META теге «robots» и другие действия с содержимым вашей страницы
Как запретить индексировать участок текста
Для установки запрета на индексирование роботами какого либо куска текста страницы используется тег NOINDEX, им обрамляем текст или участок страницы который не хотим чтобы был проиндексирован:
<NOINDEX>Текст который не будет проиндексирован роботами поисковиков</NOINDEX>
Другой, предназначенный только яндексу валидный тег noindex выглядит так:
<!--noindex-->Этот текст не будет учитываться только Яндексом<!--/noindex-->
Что запретить индексировать поисковым системам
Однозначно следует запрещать:
- Все служебные директории — админку и вспомогательные, к примеру: /cgi-bin/
- Страницы регистрации и страницы с различными формами для заполнения.
- Страницы с дублирующимся содержанием (RSS лента, постраничка главной, рубрики, архивы, метки — в случае, если на них у вас опубликованы анонсы постов).
В идеале в индексе поисковиков должны присутствовать только страницы, которые полезны для посетителей и на которые они будут переходить с результатов поиска. То есть главная и страницы самих записей (статей или постов).
Читайте также:
- Плюсы и минусы dofollow и nofollow в комментариях
- Знать SEO вредно — чем меньше знаешь тем лучше спишь
- Критерии анализа юзабилити сайта
- Плохая юзабилити губительна для сайта
- Юзабилити — удобность сайтов для посетителей
- Валидный NOINDEX проходит валидацию
- Оптимальной длины статей не существует!
- Полный текст RSS новостей из сокращенного фида
- Анкоры ссылок и текст анкоров в продвижении
- Уникальный шаблон для сайта можно сделать самостоятельно