Главная > Блог > Как проверить нет ли дублей страниц по разным URL адресам сайта

Как проверить нет ли дублей страниц по разным URL адресам сайта

16.07.2014.

Важно, что бы на сайте не было дублированных страниц. Такие страницы ухудшают сайт в глазах поисковых систем и могут стать причиной плохого ранжирования сайта или получения сайтом фильтра от ПС. Дубли страниц на сайте могут возникать по разным причинам — особенности CMS (движка сайта), не внимательность веб-мастера, не правильная настройка сайта и т.п., но избавляться от дублей нужно в любом случаем.

Самые распространенные причины дублирования контента это:

Сайт доступен с www и без www
Открыты для индексации страницы тегов, результаты поиска, архивы и т.д.
Главная страница сайта открывается по нескольким адресам

Есть, конечно, и другие причины дублирования контента, но это самые распространенные, о их устранении мы и поговорим.

Как сделать редирект с www на версию сайта без www (и наоборот)

Фактически, вам, как владельцу сайта и посетителям сайта всё равно — смотрят они сайт с www. вначале адресной строки или без. Но не всё равно поисковым роботам — так как www.site.ru воспринимается как поддомен (домен третьего уровня) сайта site.ru (так же, как и, например, shop.site.ru) — то есть, как отдельный сайт. А если два сайта полностью дублируют друг друга, это может послужить плохим сигналом для поисковых систем — от простого исключения из индекса одной версии сайта (что не так страшно) до накладывания фильтров на обе версии (что значительно хуже). А значит, нужно сделать так, что бы у сайта была только одна версия (зеркало), доступная поисковым системам.

Проверяем, открывается ли по адресу с www и без

Сделать это просто — в адресной строке вашего сайта вводим адрес с www и без www. Если происходит перенаправление на какую-то одну версию — то с этим пунктом у нас проблем нет, переходим к следующему пункту поиска дублей. Если же сайт открывается с www и без — то нужно сделать редирект и задать главное зеркало сайта.

Проверяем, какая версия сейчас считается главной

Для проверки задаем поисковый запрос с доменом вашего сайта и смотрим, куда направляет нас Яндекс или Google (ориентироваться лучше на ту ПС, с которой у вас больше клиентов — для рунета это, как правило, Яндекс):

ВАЖНО: смотрим не то, что Яндекс показывает в выдаче, а то, куда ведет ссылка (нижняя стрелка, браузер Опера; или можно перейти по результату выдачи и посмотреть в адресной строке), так как Яндекс сейчас скрывает www в выдаче (показывает просто домен realyseo.ru, а ссылка под ним может вести на поддомен www). Теперь мы знаем, какую версию сайта Яндекс считает главным зеркалом. Можно переходить к склеиванию.

Мы настоятельно рекомендуем при склеивании зеркал выбирать главное зеркало именно по Яндексу, так как, если вы, по каким-либо причинам, захотите задать другое главное зеркало, то возможны временные проблемы с индексацией и ранжированием сайта.

Итак, настраиваем 301-й редирект на главное зеркало в корневом файле .htaccess (все запросы к страницам сайта, содержащие www. в начале перенаправляем на те же страницы без www). Для этого в файл .htacess добавляем строки (сначала сделав резервную копию!!!):

Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.site\.ru$ [NC]
RewriteRule ^(.*)$ http://site.ru/$1 [R=301,L]

То есть, все запросы вида http://www.site.ru/stranica.html мы перенаправляем на URL http://site.ru/stranica.html (без www) с сохранением адреса запрашиваемого документа на сайте (stranica.html). В общем-то, этого достаточно для того, что бы в индексах поисковых систем осталось только одно зеркало сайта. Так же, можно указать главное зеркало для Яндекса в панели вебмастера: Настройки индексирования — Главное зеркало.

Ищем страницы поиска, тегов, архивов

Современные CMS часто оставляют открытыми для индексации ПС страницы с результатами поиска по сайту, страницы меток/тегов, архивы публикаций по месяцам/датам и т.п. И если страницы поиска по сайту могут быть полезны посетителям, перешедшим на ваш сайт с поисковой системы (например, для интернет-магазина страницы поиска товара с заданными характеристиками «женские сапоги черного цвета»), и то не всегда, то архивы и метки лучше всегда закрывать от индексации (а иногда и страницы категорий). Это делается для того, что бы избежать частичного дублирования контента (на таких страницах показывается часть контента материалов, доступных по постоянным адресам, и лучше не дублировать контент на сайте):

Проверить, есть ли на вашем сайте частичное дублирование контента, можно, выполнив поиск в Яндексе по точной цитате текста с сайта (берем первое предложение материала (до точки), заключаем в кавычки, ищем в Яндексе, нажимаем «Показать ещё для сайта»). И, чаще всего, видим, что частичные дубли на сайте есть. Так же, дубли страниц можно искать методами, описанными в этой публикации.

Закрыть индексацию таких страниц можно через robots.txt, но лучше использовать тег noindex вместе с тегом rel=»canonical» для страниц публикаций/статей/товаров. Как это сделать здесь описывать нет смысла, так как для каждого движка сайта это делается индивидуально.

Главная страница сайта открывается по нескольким адресам

Контент главной страницы очень важен, так как её проще всего продвигать. И если её контент доступен по нескольким адресам — это однозначно плохо для сайта. Проверить, открывается ли главная страница по нескольким адресам можно, набрав в браузере http://site.ru/index.php или http://site.ru/index.html (или любое другое расширение, использующееся на вашем сайте). Если страница открывается и на ней доступен тот же контент, что и на главной http://site.ru/ — то от такого дубля лучше избавиться.

Для начала — проверим, нет ли ссылок (обычно, такие ссылки встречаются в меню сайта) на дубли главной страницы — для этого просмотрим все меню, содержащие ссылку на главную и убедимся, что там стоит ссылка именно на главную страницу http://site.ru/, а не на http://site.ru/index.php или что-то подобное. Если есть ссылки на дубли — меняем их на правильные.

Теперь нужно закрыть дублированную главную страницу от индексации — как и в предыдущим случае, универсальное решение посоветовать трудно, всё делается индивидуально (редирект, robots.txt, noindex или rel=»canonical» ).

Другие материалы по теме:

Понравилась статься? Подпишитесь на обновления: