Главная » Как сделать » Внутренние дубли страниц. Поиск и удаление дублей страниц.

Внутренние дубли страниц. Поиск и удаление дублей страниц.

Внутренние дубли страниц. Поиск и удаление дублей страниц.

Приветствую вас, уважаемые читатели и случайно зашедшие гости! Этот пост является вторым из серии «Технический аудит сайта». Первую запись можно прочесть в предыдущей статье. А сегодня будет большой материал про поиск и удаление бесполезных для сайта страниц. К таким страницам я отношу «мусорные» страницы и страницы с дублированным контентом.


«Мусорные» страницы – это веб документы не предоставляющие полезного уникального контента в рамках сайта или вовсе состоящие только из сквозных блоков.


К «мусорным» страницам можно отнести:


  • Страницы с ID сессиями посетителей;
  • Страницы с формой регистрации на сайте;
  • Страницы переходов по каталогам товаров вида «1, 2, 3, 4, 5, …», которые имеют идентичные описания, где меняются лишь изображения и стоимость товаров;
  • Страницы с результатами сортировки списков по каким-либо пунктам (название, цена, цвет и т. д.);
  • Страницы с результатами поиска по сайту;
  • Страницы с профилями зарегистрированных пользователей. Обычно в URL-адресе таких страниц имеется слово «profile»;
  • Страницы печати. В названии URL обычно встречается слово «print».
  • Фильтры товара в интернет – магазине;
  • Страницы создания новой темы и им подобные.

БОльшая часть страниц с дублированным контентом являются мусорными.


Итак, чем же плохи дубли страниц на сайте? Основной причиной является негативное влияние на продвижение сайта в поисковиках. А именно:


  1. Может перебиться продвигаемая страница. То есть искалка может посчитать наиболее релевантной страницей документ, текст которого дублируется в категории. Таким образом, сёрфер, пришедший из поисковой выдачи, будет попадать в общую категорию, вместо того, чтобы сразу попасть на страницу, заточенную под данный ключевой запрос. Процент отказов в таком случае, скорее всего будет расти.

  2. «Распыляется» внутренний ссылочный вес. Это происходит из-за того, что на сайте присутствуют линки, ведущие на страницы с дублированным контентом. Таким образом, на дубли страниц «утекает» внутренний ссылочный вес, вместо того, чтобы передавать его на действительно значимые веб-страницы.

  3. Неуникальный контент ранжируется поисковиками хуже.

Откуда берутся дубли страниц ?

Внутренние дубли страниц чаще всего появляются из-за не совершенства систем управления контентом (CMS), а также из-за невнимательности вебмастера. Внутренние дубли следует разделять на полные и частичные.


Полные дубли – это страницы с абсолютно идентичным содержанием, которые имеют различные URL. Например, довольно часто встречается, что сайт открывается по нескольким адресам:


  • domen.ru ;
  • domen.ru/ ;
  • domen.ru/index.html ;
  • domen.ru/all_index.html .

Итого получаем аж три дубля главной страницы. А если ещё и не настроено главное зеркало в плане с www или без www, тогда считайте сами …


Довольно часто полные дубли страниц появляются после перехода движка сайта на человеку понятные урл (ЧПУ). Страницы сайта начинают открываться по новым URL-адресам, но старые адреса всё ещё продолжают работать. В результате получается, что каждая страница сайта доступна по двум различным URL-адресам.


Частичные внутренние дубли – это страницы, на которых повторяется лишь какой-то процент контента других документов. Ярким примером здесь могут служить страницы категорий блога или страницы поиска по сайту. И если первые (категории блога) вполне нормальное явление, то вот от страниц с результатами поиска по сайту лучше избавляться. Ибо они есть самые настоящие «паразиты».



Поиск дублей страниц на сайте

Здесь я приведу 5 способов. Применяйте тот, который вам больше нравится, можно использовать несколько.


1) Анализ проиндексированных искалкой страниц. Метод заключается в том, чтобы найти все проиндексированные той или иной искалкой страницы и проанализировать их по URL.


Чтобы поисковик отобразил все страницы, находящиеся в индексе, достаточно ввести в поисковую строку запрос site:domen.ru (здесь пишите свой домен).



ищем проиндексированные страницы блога Onlain-Work.ru


Если входе просмотра URL-адреса страниц вы заметите что-то вида domen.ru/category-1/?abrakadabra, то скорее всего такую страницу нужно закрыть от индексации.


Для удобства анализа URL можно воспользоваться бесплатной десктопной программой Yandex Parser. Юзать эту прогу сможет даже полный «чайник». Достаточно в левое верхнее поле ввести запрос «site:domen.ru» и нажать «Агонь». Далее прога начнёт парсить урлы проиндексированных документов, которые затем, при необходимости, можно скопировать в excel.



Работа проги Яшкалюб


2) Ищем дубли страниц с помощью поиска Google или Yandex. Пожалуй это один самых популярных методов. В поисковой строке Google или Яндекс нужно указать область поиска и через пробел ввести кусок текста (7-15 слов) проверяемой странички в кавычках.





В качестве примера я взял кусок текста из статьи «10 способов как можно составить семантическое ядро сайта». Google нашёл на моём блоге два документа. Это собственно страница поста и её анонс в категории. Если бы я взял кусок текста из середины или конца этой статьи, то Google нашёл бы только 1 страницу, так как искомая фраза в анонс не попадает.


3) Найти дубли страниц через Google Webmaster. Если ваш ресурс подключен к Гугл Вебмастер, то найти повторяющийся контент можно проанализировав данные title и description. Очень часто страницы с одинаковыми заголовками (title) или описанием (description) являются дублями.



Интерфейс Google Webmaster


Получить о сайте такую информацию можно перейдя по вкладкам «Интерфейс поиска -> Оптимизация HTML».


4) Поиск дублей страниц по заголовку или URL. Опять возвращаемся к поисковой строке искалки. Правда на сей раз поиск будем производить по URL-адресу или загаловку title. У страниц с дублированным контентом эти элементы обычно схожи.


- Поиск по заголовку (title).

Для поиска в Яндексе нужно ввести запрос – «site:domen.ru title:("!слово-1 !слово-2")».



поиск дублей по заголовку title в Яндексе


Такой запрос будет искать все документы, в заголовке которых встречается в данном случае фраза «заработать деньги».


А вот для Google нужно будет вводить запрос так – «site:domen.ru intitle:"!слово-1 !слово-2"».



поиск дублей по заголовку title в Google


- Поиск по URL

Здесь как для Яндекса, так и для Гугла работает правило - «site:domen.ru inurl:search».


Такой запрос будет искать документы, в адресе которых имеется прямое вхождение «search».


5) Поиск дублей с помощью программы Xenu. Способ заключается в поиске внутренних ссылок, которые ведут не на основной документ, а на полную или частичную копию. Естественно, что такие ссылки нужно находить и править их или вообще удалять. В этом нам поможет десктопная программа Xenu. Она обходит все линки на сайте и ищет битые, внешние, показывает title документа и другую полезную информацию.



поиск дублей страниц с помощью программы Xenu


Программа на буржуйском языке, но пользоваться ею не составит большого труда. После установки на компьютер нужно нажать в левом верхнем углу «File», перейти на «Check URL», а затем ввести в самое первое поле адрес сайта и нажать «ОК». Результат не появится мгновенно. В зависимости от объёма сайта придётся подождать какое-то время.


Кому-то может показаться, что прога сложна и непонятна. Однако, если разобраться что к чему, то вполне кошерна.



Как избавиться от дублей страниц ?

Решить данную проблему можно несколькими способами. Всё зависит от конкретной ситуации, то есть от пути происхождения самого дубля.


1) Запрет в robots.txt. При помощи директивы disallow файла robots.txt можно запретить поисковому боту индексировать определённые страницы сайта. Этот метод особенно хорош когда страницы с дублями находятся в одной директории.


Предположим нам нужно запретить к индексации страницы с результатами поиска по сайту, которые находятся по адресу http://domen.ru/search/, тогда в файле robots.txt нужно прописать следующее правило:


User-agent: *

Disallow: /search/


А может быть на вашем ресурсе присутствуют страницы с идентификатором сеанса – «?». В таком случае целесообразно будет запретить индексировать документы, в URL которых содержится этот знак. Например так:


User-agent: *

Disallow: /*?

Disallow: /*?*


2) Атрибут rel=«canonical». Этот атрибут сейчас работает как в Яндекс так и в Google. Предназначен он для того, чтобы указать роботу, какой документ из множества схожих по содержанию должен участвовать в поиске. Такой документ будет являться каноническим, то есть наиболее релевантным.


Чтобы страница стала канонической, необходимо на всех остальных, схожих по содержанию страницах, в пределах тега head прописать следующий код:


<link rel="canonical" href="http://domen.ru/osnovnaya-stranica.html">


В таком случае страница с адресом http://domen.ru/osnovnaya-stranica.html будет для поисковиков самой релевантной.


Неболбшой пример. Допустим у вас на сайте имеются такие страницы:


  1. http://domen.ru/example.html
  2. http://domen.ru/example.html&sort=color
  3. http://domen.ru/example.html&sort=cost
  4. http://domen.ru/example.html&sort=date


Для того, чтобы указать в качестве канонической страницу под №1, необходимо на остальных трёх страницах, в оговоренном чуть выше месте, прописать следующий код:


<link rel="canonical" href="http://domen.ru/example.html">


Проблем думаю с этим быть не должно .


3) 301 редирект. Используется для перенаправления поисковых ботов и посетителей с одной страницы на другую. Применяется 301 редирект обычно, когда некоторые страницы сайта стали доступны как по старым так и по новым URL-адресам, например после смены CMS.


Редирект 301 говорит роботу, что страница навсегда сменила старый адрес на новый.


Чтобы сделать 301 редирект с одной страницы на другую, необходимо в файле .htaccess прописать такое правило:


Redirect 301 /staraya-stranica.html http://domen.ru/novaya-stranica.html


4) Уникализация контента. Встречаются ситуации, когда страницы с частичными дублями должны оставаться в индексе. В таком случае выход – добавлять на них контент или изменять уже имеющийся.


Помогла ли вам данная статья в поиске и удалении дублей ? Может быть вы используете какие-то другие методы? Обо всём этом пишите в комментариях.


Чтобы не пропустить следующие статьи из серии «Технический аудит сайта» подпишитесь на обновления блога.



Статьи по теме:

Присоединяйтесь ко мне в Google Плюс:


Хотите получать актуальные новости из мира SEO, SMO и интернет маркетинга прямо в свой почтовый ящик ?
Нет ничего проще !

СПАМ в комментариях ЗАПРЕЩЁН!!! Любые попытки караются пожизненным БАНОМ!


Комментарии к этой заметке больше не принимаются.



  • Статистика посещений: