Дубли страниц на сайтах или блогах, откуда они берутся и какие проблемы могут создать.
Именно об этом поговорим в этом посте, постараемся разобраться с этим явлением и найти пути минимизации тех потенциальных неприятностей, которые могут принести нам дубли страниц на сайте.

Дубли страниц
Приветствую Вас на страницах моего блога inetmkt.ru. Итак, продолжим.

Что такое дубли страниц?

Дубли страниц на каком-либо веб-ресурсе означает доступ к одной и той же информации по разным адресам. Такие страницы еще называют внутренними дублями сайта.

Если тексты на страница совершенно идентичны, то такие дубли называют полными или четкими. При частичном совпадении дубли называют неполными или нечеткими.

Неполные дубли – это страницы категорий, страницы перечня товаров и тому подобные страницы, содержащие анонсы материалов сайта.

Полные дубли страниц – это версии для печати, версии страниц с разными расширениями, страницы архивов, поиска на сайте, страницы с комментариями так далее.

Источники дублей страниц.

источники дублей страницНа данный момент большинство дублей страниц порождаются при использовании современных CMS – системами управления контентом, еще их называют движками сайтов.

Это и WordPress, и Joomla, и DLE и другие популярные CMS. Это явление серьезно напрягает оптимизаторов сайтов и вебмастеров и доставляет им дополнительные хлопоты.

В интернет-магазинах дубли могут появиться при показе товаров с сортировкой по различным реквизитам (производителю товара, назначению товара, дате изготовления, цене и т.п.).

Также надо вспомнить о пресловутой приставке WWW и определиться, использовать ли ее в имени домена при создании, развитии, продвижении и раскрутке сайта.

Как видим, источники возникновения дублей могут быть различными, я перечислил только основные, но все они хорошо известны специалистам.

Дубли страниц, негативны.

Несмотря на то, что многие на появление дублей не обращают особого внимания, это явление может создать серьезные проблемы при продвижении сайтов.

Поисковая система может расценить дубли как спам и, вследствие этого, серьезно понизить позиции как этих страниц, так и сайта в целом.

При продвижении сайта ссылками может возникнуть следующая ситуация. В какой-то момент поисковая система расценит как наиболее релевантную страницу-дубль, а не ту, которую Вы продвигаете ссылками и все ваши усилия и затраты будут напрасными.

Но есть люди, которые стараются использовать дубли для наращивания веса на нужные страницы, главную, например, или любую другую.

Методы борьбы с дублями страниц

Борьба с дублями страницКак же избежать дублей или как свести на нет негативные моменты при их появлении?
И вообще стоит ли с этим как-то бороться или же все отдать на милость поисковым системам. Пусть сами разбираются, раз они такие умные.

Использование robots.txt

Robots.txt – это файл, размещающийся в корневом каталоге нашего сайта и содержащий директивы для поисковых роботов.

В этих директивах мы указываем какие страницы на нашем сайте индексировать, а какие нет. Также можем указать имя основного домена сайта и файл, содержащий карту сайта.

Для запрещения индексации страниц используется директива Disallow. Именно ее используют вебмастера, для того, чтобы закрыть от индексации дубли страниц, да и не только дубли, а любую другую информацию, не относящуюся непосредственно к содержанию страниц. Например:

Disallow: /search/ – закрываем страницы поиска по сайту
Disallow: /*? – закрываем страницы, содержащие знак вопроса “?”
Disallow: /20* – закрываем страницы архива

Использование файла .htaccess

Файл .htaccess (без расширения) тоже размещается в корневом каталоге сайта. Для борьбы с дублями в этом файле настраивают использование 301 редиректа.
Этот способ хорошо помогает сохранить показатели сайта при смене CMS сайта или изменении его структуры. В результате получается корректная переадресация без потери ссылочной массы. При этом вес страницы по старому адресу будет передаваться странице по новому адресу.
301 редирект применяют и при определении основного домена сайта – с WWW или без WWW.

Использование тега REL = “CANNONICAL”

При помощи этого тега вебмастер указывает поисковику первоисточник, то есть ту страницу, которая должна быть проиндексирована и принимать участие в ранжировании поисковых систем. Страницу принято называть канонической. Запись в HTML-коде будет выглядеть следующим образом:

<link rel=”canonical” href=”http://sait.ru/str1/”>

При использовании CMS WordPress это можно сделать в настройках такого полезного плагина как All in One Seo Pack.

Дополнительные меры борьбы с дублями для CMS WordPress

Применив все вышеперечисленные методы борьбы с дублями страниц на своем блоге у меня все время было чувство, что я сделал не все, что можно. Поэтому покопавшись в интернете, посоветовавшись с профессионалами, решил сделать еще кое-что. Сейчас я это опишу.

Я решил устранить дубли, которые создаются на блоге, при использовании якорей, я о них рассказал в статье “Якоря HTML”. На блогах под управлением CMS WordPress якоря образуются при применении тега “#more” и при использовании комментариев. Целесообразность их применения довольно спорная, а вот дубли они плодят явно.
Теперь как я устранил эту проблему.

Сначала займемся тегом #more.

Нашел файл, где он формируется. Вернее мне подсказали.
Это ../wp-includes/post-template.php
Затем нашел фрагмент программы:

$output .= apply_filters( ‘the_content_more_link’, ‘ <a href=”‘ . get_permalink() . “#more-{$post->ID}\” class=\”more-link\”>$more_link_text</a>”, $more_link_text );

Фрагмент, отмеченный красным цветом убрал

#more-{$post->ID}\” class=

И получил в итоге строку вот такого вида.

$output .= apply_filters( ‘the_content_more_link’, ‘ <a href=”‘ . get_permalink() . “\”more-link\”>$more_link_text</a>”, $more_link_text );

Убираем якоря комментариев #comment

Теперь перейдем к комментариям. Это уже сам додумал.
Тоже определился с файлом ../wp-includes/comment-template.php
Находим нужный фрагмент программного кода

return apply_filters( ‘get_comment_link’, $link . ‘#comment-‘ . $comment->comment_ID, $comment, $args );}

Аналогично фрагмент, отмеченный красным убрал. Очень аккуратно, внимательно, вплоть до каждой точки.

. ‘#comment-‘ . $comment->comment_ID

Получаем в итоге следующую строку программного кода.

return apply_filters( ‘get_comment_link’, $link, $comment, $args );
}

Естественно все это проделывал, предварительно скопировав указанные программные файлы к себе на компьютер, чтобы в случае неудачи легко восстановить состояние до изменений.

В результате этих изменений при нажатии на текст “Прочитать остальную часть записи…” у меня формируется страница с каноническим адресом и без добавки к адресу хвоста в виде “#more-….”. Также при клике на комментарии у меня формируется нормальный канонический адрес без приставки в виде “#comment-…”.

Тем самым количество дублей страниц на сайте несколько уменьшилось. Но что там еще сформирует наш WordPress сейчас сказать не могу. будем отслеживать проблему дальше.

И в заключение предлагаю Вашему вниманию очень неплохое и познавательное видео по этой теме. настоятельно рекомендую посмотреть.

Всем здоровья и успехов. До следующих встреч.

Комментарии (20) на “Дубли страниц, решение проблемы”

  • Сергей пишет:

    Полезная и нужная статья для начинающих очень актуально.

  • ivvva пишет:

    А правда что ли страница и страница#more-12345 будут восприниматься поисковиком как разные адреса? Озаботился.
    Не берусь судить, но некоторые меры из приведенных мне кажутся перестраховкой.

    • Юрий пишет:

      Провел аудит сайта и мне указали на эту проблему. Возможно это и перестраховка, я просто поковырялся в теме и с Вами поделился. Некоторые профи этому много внимания не уделяют, другие относятся очень трепетно. В конце концов, раз поисковые программы такие умные, могли бы эти ситуации и просчитывать. Это мое мнение.

  • Николай пишет:

    Очень полезная статья. Спасибо.

  • Олег пишет:

    Ну так тег rel=”canonical” как раз и указывает какую страницу индексировать, а с #more они в индекс не попадают.

  • Руслан пишет:

    Тег more у меня везде уникальный. А за статью спасибо ,как раз подумывал избавиться от дублей.

  • Наталья пишет:

    У меня из-за Disallow: /*? Яндекс не индексировал сайт. После его удаления – стал индексировать

  • Абдикарим пишет:

    Не подскажите откуда берутся и как убрать дубли типа www. сайт/запись /feed в Гугле. В роботсе закрыть от индексации, но все равно с feed googlе индексирует…

    • Юрий пишет:

      Плодят дубли сами CMS, в данном случае WordPress. Для устранения используют конструкции в robots.txt:
      Disallow: /feed
      Disallow: */feed
      Disallow: /feedback

      Успехов Вам.

  • Гарант пишет:

    Автору статьи респект.Было бы не плохо также рассмотреть способы борьбы с дублями страниц и под другие CMS, например Joomla

  • Юрий пишет:

    К сожалению, с другими CMS подробно не знаком и четкие рекомендации дать не могу.

  • lisss пишет:

    Спасибо за статью, но вот возник вопрос, после того, как проделаны все операции по удалению якорей от тега more и комментариев, страницы которые уже похоже стали дублями, надо вручную редактировать (редиректом 301), или они по умолчанию уйдут?
    Заранее спасибо за ответ!

  • Александр пишет:

    приветик скажите у меня такая проблема – я при помощи прогера создал наконец то долгожданный раздел *новости* на верхней странице темы но получилось что и в рубриках есть раздел *новости* и выходит там и там одно и то но по сути то записей кол-во одно, просто увидить их можно нажав на верхнюю кнопку *новости* или открыв раздел *рубрики* и зайти в новости оттуда – считается это дублем или нет ?? и как быть – оставить так или чтото предпринять …

  • Александр пишет:

    благодарю!!!

  • Александр пишет:

    у меня возник еще вопрос – вот вы пишите про тег #more … у меня блоги тоже на вордпресс и при нажатии читать далее страница выглядит так: /privetstvuem-novye-novosti/#more-1602

    а при нажатии просто на заголовок статьи она открывается и ссылка уже выглядит : /privetstvuem-novye-novosti/

    как быть лучше? ведь новичек зайдя на страницу увидия новость нажмет естественно читать далее а не на заголовок для раскрытия ее всей я б и сам недогнал …. а если статьи не разделять то бред – вылезет и подписка и окно коментов и так в каждой записи, тож не вариант – как тут быть? или оставить /privetstvuem-novye-novosti/#more-1602 , просто прочитав вашу статью стемно лезть в код ну всетаки придется ???

    и еще оч странно почему на страницах тег читать далее вписываешь открываешь страницы все по прежнему а в записях работает …странно тож вордпресс работает, как мне сказал спец что вордпресс это г… пишите верстайте снуля но я считаю что знающий чел или прогер доведет любой движек до идеала почти уверен. или скрипт неважно.

  • Юрий пишет:

    Страницы ведь это статические и их нет ленте новостей, а записи в ленте новостей или рубрик. Поэтому есть смысл применять в них тег more.
    А по поводу куда нажмет читатель. то не беспокойтесь, он увидит информацию полностью. Как сделать, чтобы был один адрес, я описал в статье, больше мне добавить то и нечего.
    Успехов.

  • Александр пишет:

    спасибо … но я пока не стал трогать – мне программист говорит пусть как есть … сечас сайты переведу на сервер и протестирую по вашей инструкции … мне лично не морэ не решетка не нравится … ХРИСТОС ВОСКРЕС !!!

  • Юрий пишет:

    Воистину Воскрес!!!

  • Зинаида пишет:

    Одной из важных составляющих при успешном продвижении сайта есть внутренняя оптимизация. Очень часто у сайтов присутствуют проблемы в дублированием страниц, из-за чего результаты продвижения могут быть низкими. Полное дублирование одна и та же страница доступна по разным URL. Оптимальное решение проблемы полного дублирования 301 редирект со страниц дублей на канонические страницы.

Оставить комментарий

Популярные записи
Получать новые статьи
Свежие статьи на сайте Ваш e-mail: