Дубли страниц на сайте — как их обнаружить

Дубли страниц на сайте — как их обнаружить

Страницы с частично или полностью одинаковым контентом называются дубли. Они негативно влияют на позиции веб-ресурса в поисковиках. Это проявляется в ранжировании нецелевых страниц, ухудшении индексации и других проблемах, включая санкции поисковых систем. Для успешного продвижения сайта важно уметь находить дубли и устранять их.

Опасность дублей

Есть две серьезные проблемы, причиной которых могут быть дубли. К ним относятся:

  • Слишком долгая или неправильная индексация. Поисковый робот посещает каждую страницу отдельно, проверяя ограниченное количество материалов, и поэтому на нужный попадает не сразу. И если дублей много, то анализ существенно замедляется. Кроме того,  возрастает вероятность появления ошибок, например, когда система индексирует дубликат, а не основной материал, и рекламный бюджет расходуется впустую.
  • Сложность аналитики и большой объем работы для веб-мастера. Если долго не обращать внимание на проблему, то появится больше одинаковых страниц, поэтому придется дольше устранять их и тратить больше денег. Также усложняется сбор статистики вследствие большой вероятности изменения адреса дубля в поисковой выдаче при очередном обновлении базы данных.

Из всех дублей при введении соответствующего запроса показывается один. Проблема в том, что его адрес может меняться, что затрудняет аналитику, приводит к неправильному распределению ссылочного веса, когда вместо основой страницы пользователи обращаются к дублирующей. Все это ухудшает ранжируемость веб-ресурса, повышает процент оригинального контента и может подвести сайт под санкции.

Почему появляются дубли?

Причин появления дублей несколько:

  • Ошибки в настройках относительных ссылок и недоступных страниц. Если неправильно заданы параметры образования ссылок, то на веб-ресурсе могут появиться несуществующие адреса с аналогичным контентом, который расположен по нужным url. А при некорректной настройке кода 404 уведомление об ошибке отображается на странице, которая тоже индексируется. 
  • Автоматическая генерация из CMS сайта. Система управления контентом может создавать для одной страницы и понятные ЧПУ адреса, и технические url.  
  • GET-параметры. Они задаются в процессе SEO-продвижения отзовиков, интернет-магазинов и других площадок с целью создания динамического контента, который адаптируется под каждого пользователя. Но веб-мастера используют их и для подсчета статистики переходов из разных источников без фактического изменения контента. Страницы с не имеющими значения для пользователей GET-параметрами признаются дублями.
  • Некорректное использование слеша в ссылках. Варианты написания с этим знаком в конце и без него поисковыми алгоритмами воспринимаются разными страницами. Поэтому отдельно индексируются, например, и https://xxx.com/service/, и https://xxx.com/service, что приводит к появлению дублирующей информации. Отсутствие или наличие слеша в конце ссылки не имеет значения для главных страниц сайтов.

Для устранения ошибок нужно найти такие повторы.

Простые способы обнаружить дубли

Выявить их можно автоматически и вручную. В первом случае большинство повторов можно посмотреть в разделе “Диагностика”. Как только они фиксируются появляется специальное уведомление. Обычно оно генерируется через 2-3 дня после индексации дублей, так как сбор и обработка информации занимает время.

Вручную обнаружить искомые страницы можно в разделе “Индексирование” Яндекс.Вебмастера. Справа во вкладке “Страницы в поиске” есть ссылка “Исключенные”. После нажатия на нее появляется опция “скачать таблицу”. Архив с данными содержит файл, в котором дубли отмечены DUPLICATE.

Чтобы своевременно выявлять новые ошибки, нужно регулярно повторять описанные действия. Это важно, так как не всегда ссылки с аналогичным содержимым признаются дублями. Причин несколько:

  • система не успела проверить их;
  • на момент индексации контент немного отличался;
  • используется динамическое обновление для части информации, поэтому поисковик видит очень похожие, но фактически разные версии, например, как в интернет-магазинах обновляемый раздел с похожими позициями.

Если точно известно, что такие повторы существуют, их рекомендуется устранить, даже если система еще и не обнаружила.

Как запретить индексацию “мусорных” страниц?

Есть три способа устранить страницы, образовавшиеся вследствие технических ошибок, которые не приносят пользу пользователям:

  • запретить их, путем внесения в индексный файл директивы disallow;
  • использовать для них мета-тега noindex — это действие передает роботу сигнал на исключение указанного материала из поиска;
  • настроить коды ответов 404, 403 и 410.

Последний способ имеет особенность — если в выдаче или только на веб-ресурсе есть ссылки на страницы с указанными кодами, произойдет переход по недоступной ссылке.  

Три способа убрать дубли

В зависимости от причины образования повторов страниц для  их удаления из поисковой выдачи используют такие способы:

  • при обнаружении не имеющих веса для пользователей GET-параметров в robots.txt добавляют межсекционную директиву clean-param, которая обрабатывается в любом месте этого файла — для Яндекса это делать необязательно, но можно, указав также в User-Agent: Yandex значения disallow и allow;
  • устанавливают редирект 301 между дублями, чтобы обеспечить присутствие в поиске только установленного редиректа, указывая предпочитаемый url;
  • используют rel=”canonical” — способ не рекомендуется, если содержимое дублей часто изменяется или незначительно отличается, так как вероятность их индексации довольно большая.

Если обнаружены адреса с/без слеша на конце ссылки, тогда используют редирект с кодом 301. При этом можно выбрать любой вариант написания ссылки. 

Чтобы предупредить появление повторов для важных контентных страниц и не допустить ошибочную индексацию, важно настроить обход станиц поисковиком, установить счетчик Яндекс.Метрики и добавить файлы карты сайты Sitemap. Также важно регулярно проводить детальный анализ сайта. Если на такой аудит нет времени или это кажется сложным, лучше воспользоваться услугами специалистов, но не игнорировать его. Это поможет выявить дубли и другие ошибки, мешающие ранжированию и СЕО-продвижению сайта.

С помощью нашего технического аудита вы сможете выявить все технические ошибки по мимо дублей, а качественная консультация наших специалистов подскажет как это исправить и не допускать их дальнейшего появления.

← к списку
Закрыть
default

Отправить заявку на Дубли страниц на сайте — как их обнаружить