Как найти на сайте дубли страниц

Дублями называют страницы с идентичным или очень похожим содержимым. Если сайт содержит дублирующиеся разделы, это может снизить его позиции в выдаче поисковой системы.

Подобные страницы могут появиться автоматически. Например, подобное происходит при работе с CMS, если при создании ссылок система оставляет как ЧПУ, так и технический URL. Также это может произойти из-за настроек. Например, неправильно указанная ссылка может вести на несуществующий адрес. Из-за этого у нужного URL появляется дубль. Ещё один вариант — проблемы с настройкой кода ответа HTTP, а именно ошибки 404. Пользователь видит сообщение о проблеме, но разделы сайта  продолжают индексироваться поисковиками. 

Как же найти такие дубли?

Сейчас есть инструмент, который помогает найти дублирующиеся разделы сайта. В Яндекс.Вебмастере в разделе «Диагностика» появляются уведомления, которые оповещают о дублях. Сообщение появляется спустя 2–3 дня после обнаружения, поскольку система должна успеть собрать и обработать большое количество данных. На скорость обработки могут влиять исправленные страницы. Уведомления начнут появляться автоматически, подписываться на них не обязательно.

Обнаружить дубликаты в Яндекс.Вебмастере можно и самому. Для этого выберите раздел «Индексирование», затем «Страницы в поиске», после чего перейдите на страницу «Исключённые». Ссылка на неё находится справа вверху.
Пролистайте портал вверх до конца. Справа внизу расположена кнопка «Скачать таблицу». Нажав на неё, можно скачать архив в любом удобном разрешении, а затем распознать дубликаты. Рядом с дублирующимися адресами вы увидите пометку DUPLICATE.

Как настроить индексирование только на полезную страницу

  1. Редактируйте документ robots.txt. Укажите там команду Clean-param, и поисковая система не будет учитывать GET-параметры, ненужные при индексировании. Благодаря этой функции поисковик не станет индексировать страницы по несколько раз. Команда снизит нагрузку на портал и увеличит эффективность обхода.
  2. Если указать команду не удаётся, вы можете прописать канонический адрес нужной страниц. Благодаря этому индексироваться будет только нужный URL. Команда не разгрузит портал: поисковик проиндексирует все адреса прежде, чем узнает про rel=canonical. Поэтому Clean-param — предпочтительный метод.
  3. Если с предыдущими способами возникают проблемы, можно запретить индексацию страниц поисковой системой с помощью команды Disallow. Но при таком методе никаких сигналов с этих адресов поступать не будет. Поэтому мы советуем в первую очередь применять команду Clean-param как основной вариант. 

В справочных материалах Яндекса более развёрнуто написано, как работать с дублирующимися страницами.

← к списку
Закрыть
default

Отправить заявку на Как найти на сайте дубли страниц