Дубликаты страниц. Что это такое, как найти и удалить.

Уважаемые пользователи!

Данная статья размещена до признания упоминаемого сервиса экстремистским на территории Российской Федерации. Администрация сайта предупреждает, что статья является информационной и не содержит призывов к использованию платформы. Использование сервисов для пользователей может повлечь последствия согласно законам.

Содержание:

Что такое дубли страниц на сайте?
Какие бывают дубли
Почему появляются дубликаты страниц
К чему приводит наличие дублей?
Поиск дублей страниц
Как удалить дубликаты страниц

Если вы стали замечать, что, несмотря на все ваши усилия в продвижении, внутренней и внешней оптимизации сайта тщетны, а поисковики постоянно откатывают его на «галерку», то эта статья именно для вас!

___________

Такая ситуация складывается вследствие многих причин. Одной из них может стать наличие на сайте дублей страниц.

Что такое дубли страниц на сайте?

Дубли страниц – это страницы, имеющие разные URL, но при этом они частично (а чаще даже полностью) дублируют своё содержание. Такие страницы приносят много проблем владельцам и разработчикам сайтов. Но о вреде дублирующий страниц на сайте мы поговорим позже, более подробно.

Зачастую дубли возникают в тех случаях, когда для наполнения сайта контентом применяют не одну систему, а несколько разных. Для конечных пользователей они не страшны, но поисковики при обнаружении дублирующих страниц накладывают фильтры, занижают рейтинги сайта в выдаче и т.п. Поэтому очень важно своевременно обнаружить и убрать с сайта дублирующие страницы, и в дальнейшем не допускать их возникновения.

Какие бывают дубли

Дубли на сайтах повторяют контент страниц как полностью, так и частично. В зависимости от этого, они называются полными и неполными.

Полный дубль – это та страница, которая полностью копирует другие. Такие страницы негативно влияют на ранжирование сайта и полностью обесценивают его контент. Поэтому рекомендуется как можно скорее удалять такие страницы.

Неполный дубль – это страница, содержащая фрагменты контента, уже расположенного на другой странице. Например, наполняя контентом страницу, мы размещаем на ней часть текста с другой страницы. Таким образом мы и получаем частичное дублирование.

Почему появляются дубликаты страниц

1. Наполнение страниц посредством CMS(системы управления контентом) – одна из наиболее частых причин появления дублей. Такое случается, например, в случае, когда одна и та же информация размещается в нескольких категориях, адреса которых включаются в URL самой записи. Таким образом и образуются дублирующие страницы. К примеру:

sitesite.com/news1/offers/
com/news2/offers/

2.«Технические» разделы. Такое чаще всего случается с Bitrix или Joomla. Интерактивными составляющими (напр. регистрацией, поиском) создаются ссылки на страницы со схожими данными относительно ресурса без URL-параметров. К примеру:

com/iarticles.php
com/iarticles?ajaz=Y

3. Ошибки разработчиков. Этот факт нельзя упускать из виду, ведь любой человек, в силу разных обстоятельств, может не заметить и разместить одну и ту же информацию в разных разделах.

4. Ошибки в системе. Дублирование страниц может иметь место при некорректном генерировании адресов ссылок и неправильных настройках в системе управления контентом. Так, к примеру, некорректные ссылки в Opencart могут привести к зацикливанию: site.com/setting/setting/setting/…/…/…

К чему приводит наличие дублей?

Ухудшение показаний индексации. На объемных ресурсах количество дублей может быть больше пяти, поэтому:

Поисковики больше времени тратят на индексацию.
Поисковые системы регулярно сканируют сайты. При обнаружении таких страниц позиции сайта понижаются, а роботы заходят на ресурс все реже.

Замена релевантной страницы. Находить дубли на индексируемых сайтах поисковики сегодня обучены, но вот при определении релевантной страницы, мнение поисковика может не сойтись с мнением разработчика. В итоге, вы можете продвигать одну страницу, а в выдаче поиска появляться будет другая.

Это приведет к неактуальности ссылочной массы и колебаниям поведенческих факторов, ведь посетители будут распределяться по «ненужным» страницам.

Бесполезность внешних ссылок. Пользователи сайта могут захотеть поделиться ссылкой на интересную им страницу. Но, если эта страница – дубль, то и распространяться будет не та страница, которая требуется. Это приводит к снижению показателей эффективности при продвижении сайта.

Поиск дублей страниц

Для обнаружения дубликатов существует несколько методов. Каждый из них приводит к разным результатам.
1. Более часто встречаемые примеры дубликатов можно обнаружить вручную. К таким вариантам относятся:

Зеркало сайта (проверить доступность сайта с «www» и без);
Дубли с или без знака «/» в конце адреса;
Дубли с такими дополнениями в конце ссылки, как «..index.php/html/asp»;
Если страница доступна при вводе адреса символами как верхнего регистра, так и нижнего. Это также способствует появлению дублей.

2. Провести анализ страниц, которые уже прошли процесс индексации поисковиком.
Для поиска дублей страниц сайта необходимо ввести запрос в Google такого вида: site:adres.com. В списке выдачи вы увидите все страницы, которые успели проиндексироваться поисковиком.

3. Проверить дубли страниц по фрагменту

Чтобы проверить дубли страниц онлайн можно прибегнуть к этому методу. Здесь достаточно скопировать в буфер обмена любой фрагмент текста и вставить его в поисковую строку. Так, можно найти страницы, повторяющие данный контент, а также найти сайты, скопировавшие его. Недостатком этого метода можно назвать то, что он подходит только для сайтов, располагающих малым количеством страниц, а также ограничение поисковой строки по длине вводимого запроса.

4. Воспользоваться разделом в «Вебмастере» от Google

В этом нам поможет раздел «Вид в поиске», где необходимо пройти такой путь (см. фото).

В этом подразделе мы сможем наблюдать все ссылки страниц, с дублированием не только тегов, но и описаний и заголовков.

5. Программа «Xenu’s Link Sleuth»

Воспользоваться данным продуктом можно бесплатно. Программа может вывести полный список ссылок страниц сайта, внешних ссылок, изображений и скриптов. Так же она позволяет искать ссылки с ошибкой 404.

Как удалить дубликаты страниц

Дубли страниц ничего хорошего сайту не принесут, поэтому от них нужно своевременно избавляться. Но, для того что бы не тратить постоянно на это время, нужно отыскать причины их возникновения и больше такого не допускать.

Поисковик Google для решения такой проблемы предлагает использовать атрибут rel=»canonical». Так, в код дублирующей страницы вставляется тег <link=»canonical» href=»http://mysite.com/cet1/page.php»>. Он указывает поисковику, какую страницу необходимо индексировать даже в случае обнаружения дублей.
Поставить запрет на индексирование страниц посредством файла индексации «robots.txt». Минус такого способа – то, что он не в полной мере решает проблему. Он сможет быть применен только в отношении групп страниц, так как для каждой отдельной страницы сайта (особенно если их очень много) прописать правила индексации – крайне трудоемкий процесс.
301 редирект. При его помощи поисковые роботы перессылаются с дублирующей страницы на основную. Сервер 301 при этом будет сообщать о несуществовании такой страницы.

Дублирующие страницы напрямую связаны с процессом ранжирования. Если своевременно от них не избавиться, то сайту грозит наложение «АГС» и «Panda» фильтров.

____________________________________________

Желательно, иногда проверять сайт вышеописанными методами, чтобы падение рейтингов сайта не стало для вас неприятным сюрпризом. К тому же, теперь вы имеете представление о нескольких методах борьбы с возникновением дублей. При грамотном их совмещении можно полностью исключить риск появления дублирования контента. Только при разумном подходе можно надеяться на высокие показатели эффективности продвижения вашего ресурса.