Одинаковые страницы: дубли внутренних страниц и как их удалить

Присутствие на сайте дублированного не уникального контента — это очень плохо, и весьма негативно влияет на отношение к нему поисковых систем.

Еще хуже если на нем дублируются не просто куски одного и того же текста, а целые страницы. Откуда берутся эти внутренние дубли, какие из них являются явными, а какие неявными и как избавиться от дублей внутренних страниц, я расскажу вам в сегодняшней статье.

Внутренние дубли страниц сайта

Явные дубли — точные копии страниц

Причины возникновения явных внутренних дублей или точных копий страниц

Основной причиной возникновения на сайтах явных дублей или точных копий существующих страниц, является их автоматическая генерация многими распространенными видами движков (CMS), не является исключением и наш горячо любимый wordpress, да и другие движки тоже этим грешны, предоставляя доступ к одной и той же странице по совершенно другому адресу, в результате чего поисковые системы решают что это совершенно другая страница, хотя и идентичная другой.

Примерами таких точных копий могут являться страницы с короткими (shortlink) и человеко-понятными (ЧПУ) адресами (URL) в вордпрессе, многие другие движки для блогов, сайтов, форумов и магазинов так-же бывает дописывают к основному адресу параметры сессий, либо другие необходимые для обработки и вывода php скриптами каких-либо данных параметры.

Как определить что на сайте есть дубли страниц

Во первых, на что стоит обратить внимание — количество проиндексированных страниц в Яндексе и Google, если расхождения очень велики, то вполне возможно что некоторые страницы вашего сайта дублируются. Например: у Яндекса в индексе 1000, а в Google — 2000-3000 тысячи.
Во вторых, просто хотя бы примерно подсчитать реальное количество ваших постов, категорий, архивов, их постраничек и сравнить с количеством страниц в индексе. Если вы опубликовали всего около 100 постов в 8 категориях, то откуда в индексе взаться нескольким тысячам страниц, ясное дело — из-за дублей страниц.

Как удалить дубли страниц с сайта

Если дубли невозможно удалить физически, не позволяет используемый движок, то избавиться от дублей вам поможет канонизация или добавление в секцию head на каждую страницу вашего сайта специального тега с указанием url адреса основной предпочитаемой вами страницы. Выглядит он так:

<link rel="canonical" href="http://основной_адрес_страницы.html" />

В этом случае в индекс поисковиков не будут попадать никакие дубли и копии и соответственно основная страница как уникальная будет ранжироваться в поиске намного выше.

Кроме этого страницы с идентичным содержанием желательно запретить к индексации в файле robots.txt директивой Disallow, конечно это возможно только в случае расположения этих страниц в определенных директориях или одинаковой структуры их URL.

В случае если дубли возникли при смене адресов, в результате чего страницы стали доступны как по старому так и по новому адресу, необходимо установить 301 редирект (Перемещена на постоянно англ. Moved Permanently) в файле htaccess, он будет полезен как для поисковиков, так и для ваших пользователей.

Неявные дубли или не совсем точные копии страниц сайта

Причины возникновения неявных внутренних дублей или похожих страниц

Неявные дубли или очень похожие друг на друга с низким процентом уникальности страницы чаще всего возникают по вине, неопытности или по неосмотрительности веб мастера или автора сайта.

Очень часто начинающие веб мастера напихивают в шапку, сайдбары и футер своих сайтов целую кучу ненужного пользователям и повторяющегося на каждой странице содержимого, это могут быть: ссылки на архивы, облака тегов, описание сайта или приветствие и много чего другого.

Порой это содержимое составляет более 10 тыс. символов, а в случае если обычная длина ваших постов не превышает 2-3х тыс. символов, о какой уникальности может идти речь?

Я вам скажу, порядка 20-30%. То есть с точки зрения поисковых систем все ваши страницы будут практически одинаковыми, что в конечном итоге становится причиной фильтра Яндекса АГС, когда все эти страницы исключаются из индекса, а google помещает их на свою мусорную свалку — дополнительный (supplemental) индекс.

Еще одна довольно распространенная причина возникновения дублей — очень большое количество категорий или меток в которых присутствуют страницы постов, в комбинации с одинаковыми анонсами и малым количеством контента, все эти категории и метки становятся очень похожими.

Такое часто встречается в онлайн магазинах, где один и тот же товар доступен в нескольких категориях, и точно такой же бедой страдают кулинарные сайты, особенно новые, недавно созданные, с малым количеством рецептов и множеством полу-пустых разделов с одной-двумя добавленными записями.

Как избежать неявных дублей или похожести страниц для поисковиков

Во первых, нужно максимально уменьшить количество повторяющегося на всех страницах содержимого, по убирать все лишнее, виджеты тексты и т.д. Если есть возможность для каждой категории страниц настроить вывод своих уникальных виджетов в сайдбарах, то это будет только плюсом.
Во вторых стараться писать более длинные посты, всегда ведь можно сделать небольшое лирическое отступление даже если по теме добавить не чего.
Если анонсы записей повторяются в нескольких категориях, постараться в случае невозможности изменять текст анонса для каждой, до максимума уменьшить их длину, а на сами страницы категорий добавить какой либо уникальный для каждой текст, например с описанием того, что можно найти в этой категории.

А у вас бывали проблемы из-за дублей страниц, и как вы выходили из сложившейся ситуации?

Внутренние дубли страниц сайта

Явные дубли — точные копии страниц

Неявные дубли или не совсем точные копии страниц сайта

Статьи по теме: оптимизация страницы уникальность