Иногда на сайте автоматически или умышленно формируются страницы с одинаковым контекстом, но под разными URL. Безобидная ситуация, которая может оказаться причиной наложения санкций от поисковых систем. Как найти дубли страниц, чтобы не попасть в проблемную ситуацию. Рассмотрим методы поиска и борьбы с ними.
Основные разновидности дублей
Под дублем следует понимать несколько страниц, которые сопровождаются одинаковым наполнением, но различными URL-адресами. Последние могут совпадать частично или полностью, что не меняет сути проблемы. Другим словами, это копии, которые доступны под уникальными ссылками.
Обычно проблемный момент появляется из-за причин:
- Ошибки, которые допускают непосредственно веб-мастера. К примеру, когда одинаковые товары с одним и тем же описанием располагаются в нескольких категориях и представлены по различным адресам:
http://info.org/category/producton-1/
http://info.org/category-2/producton-1/
- Неправильно настроенная CMS или плагины становятся причиной автоматического появления дублирования. Простой пример:
https://site.org/press/cat/identifier/news/
https://site.org/press /novosti/
- Изменение структуры проекта, которая предполагает корректировку адресов и сохранения первичной информации со старым. Переход с кириллицы на латинский алфавит. Пример:
https://site.org/каталог/продукт
https://site.org/catalog/product
Существует 2 разновидности дублей: частичные и полные.
Полные дубли
Под полными дублями следует понимать ситуацию, когда на сайте располагается 2 странички с полностью разными адресами, но с идентичным содержанием. Примером является:
- В URL используется вместо одного слеша несколько («/», «//», «///») или полное отсутствие.
https://info.org/news
https://info.org/news//
- Сайт представлен с доступом по протоколу HTTPS и HTTP.
https://site.org/news
http://site.org/news
- Неправильно настроено отображение с www и без www
https://info.org/news
https://www.info.org/news
- В URL располагается приписки в виде index, default, home и так далее:
http://site.com/index.php
http://site.com/index.html
http://site.com/default.php
- Дубли формируются из-за несоблюдения прописных и строчных букв, при этом несколько позиций доступно следующим образом:
https://site.org/News
https://site.org/news
https://site.org/NEWS
- Проблемы с иерархической структурой. Ярким примером этому считается доступность товара на разных страничках:
http://info.org/dir/things
http://info.org/catalog/things
http://info.org/things
- Дополнительные параметры и метки в URL. Сюда включаются вариации с GET, с временными метками UTM или с GCLID.
https://site.com/index.php?product=25
https://site.com/index.php?example=25&cat=10
Показатель GCLID появляется при переходе через рекламные объявления. Элемент Google Click Identifier добавляется автоматически, что позволит отследить данные относительно фирмы, канала трафика, ключевых слов. При таком переходе у посетителя высветится не https://site.com/, а https://site.com/?glid=5516.
Такая же система присутствует и в Яндекс Метрике, она именуется yclid. Помогает прослеживать эффект от рекламных кампаний, следить за посетителями и их действиями. Адрес выглядит примерно так:
https://site.com/?yclid=111
Похожая метка присутствует для других специализированных систем учета посетителей и проведения рекламных кампаний. Еще одним примером считается openstat. Применяется для осуществления анализа и разработки маркетинговых приемов по привлечению трафика и покупателей. Ссылка с метками выглядит:
https://site.com/?_openstat=546885526.
В некоторых случаях дубли формируются из-за реферальных ссылок, которые ведут на главную страницу, но обладают уникальным написанием. От такой практики не следует отказывать, важно правильно выполнять настройку системы через rel=canonical. Внешне ссылка будет выглядеть:
https://site.com/register/?refid=65489465
или
https://site.org/index.php?cf=reg-newr&ref=12311321
- Пагинация в интернет-магазинах, блогах или на сайтах новостей. Описание для второй, третьей и последующих страниц задается категорией или разделом. Для примера сравните
https://open.net/news
https://open.net/news/page-3
- Неверная настройка страницы 404. Представленная проблема достаточно распространена, чем пользуются различные спамеры. Пример:
https://dat.org/rock-on-464564
https://dat.org/88555.
Ссылки такого типа не обладают никакой нагрузкой, на них показывает вставка «недоступна». Тем не менее они отдают код 200 OK, что говорит о нормальном содержании. Поисковик индексирует ее и указывает на наличие полного дубля.
Частичные дубли
Предполагают использование одинакового контента в отдельных блоках. Представим основные виды частичных дублей:
- Дубли для описаний товаров в карточке и категории. Здесь проблема кроется в описании товарных единиц, которые также дублируются в основном каталоге. Достаточно часто для общих блоков предусматривается вывод одной и той же информации. Это неприемлемо и попадает в категорию частичных дублей. Рассмотрим следующий пример:
- Страницы фильтрации, сортировки позиции или поиска товаров по определенным критериям также становится причиной появления частичных дублей. Где присутствует похожее содержимое или меняется порядок расположения этой информации, везде существует риск попадания страницы в дубли.
- Информация для печати или скачивания, где доступен подобный функционал, существует риск появления частичного дубля. Для примера:
http://site.org/news/news12314
http://site.org/news/news12314/print
Санкции от дублирования на сайте
Проблема может появиться неожиданно, не зависит от возраста и контента. Дублирование никак не повлияет на получение информации для клиента или посетителя. Другое видение на этот счет у поискового робота. Переходя по сайту, бот определяет свежие страницы, на которых уже имеется повторяющаяся информации. Это ведет к следующему:
Ухудшение индекса
Под краулинговым бюджетом следует понимать то количество страниц, которые обойдет робот в определенный момент времени. При существенной массе бесполезных страниц робот может не «съедать» важную информацию, а в поиске выдавать «мусор».
Смещение релевантности
Поисковик может скорректировать выдачу, и все усилия и прогресс по продвижению запроса сойдут на нет. Алгоритм будет уверенно направлять на дубль, считая его более приемлемым под тот или иной запрос. В большинстве случаев ни продвигаемая страница, ни продублированная информация не добираются до высоких позиций в выдаче.
Потеря веса и ссылок
Ссылочная масса теряется из-за установки ссылок не на оригинал. Это существенная проблема, которая также сказывается на продвижении.
Инструменты для оценки наличия дублей
Основные виды дублей и негативный эффект изучили. Теперь важно провести аналитику, научиться выявлять и устранять проблему. Ознакомьтесь с несколькими способами:
Программное обеспечение Netpeak Spider
Простым и эффективным инструментом считается программного обеспечение Netpeak Spider. С применением софта можно обнаружить полные внутренние дубли страниц, по содержанию в блоках. В некоторых случаях по повторам в теге «Title» или «Description».
Поисковые системы
Второй способ связывается с использованием стандартных поисковиков. Для этого нужно зайти в Google или в Yandex, после вписать «site:». То есть вписываем префикс, после двоеточия указываем адрес сайта. Это позволит вывести все страницы, представленные для выдачи. Количество их может существенно различаться от найденных в программе выше или в XML-карте. После просмотра можно убедиться в наличии или отсутствии «мусорных» страничек, от которых лучше избавиться.
Подобным образом используется поиск фрагментами, что поможет углубленно проанализировать сайт. Если вы знаете определенную фразу, которая доступна по ряду страниц, тогда воспользуйтесь функцией «site:» для выявления частичных дублей. Для этого следует взять в кавычки фразу, а после дописать оператор и сайт для анализа. Это имеет вид такой:
«Неправильно настроенная сортировка, фильтры или поиск товаров по критериям также становится причиной появления частичных дублей.» site:https://site.org/
Если в выдаче располагается только одна страница, дублирование отсутствует. Иногда в выдаче доступно несколько страничек, что потребует от вас анализа о причинах появления. Возможно, что от них придется избавиться в будущем.
Для анализа содержимого в «Title» используется специальный оператор «intitle:». Наличие одинакового текста зачастую считается основным признаком появления продублированных страниц. Для проверки в строке поиска должна располагаться следующая информация:
Через оператор «inurl» определяется дубли, которые сформированы из-за неправильной настройки фильтров, поиска или сортировки. Внешний вид использования этой функции:
site:https://site.org/ inurl:sort (filter, search)
Обратите внимание, что специальные операторы работают только с проиндексированными страницами. Полагаться на 100% не приходится.
Как исключить дубли
Если проблема в действительно актуальна, ее необходимо решить. Существует несколько способов, как убрать дубли страниц, помогающие оптимизировать выдачу и повысить качественные характеристики вашего сайта в глаза поисковиков.
301 редирект
Это наиболее простой и эффективный способ устранения полных дублей. Метод предполагает перенаправление неликвидной, дублированной страницы на главную. Переадресация настраивается автоматически и не требует вашего вмешательства. Робот видит переадресацию и помечает, что по представленному URL информация недоступна.
Редирект с кодом 301 передает ссылочную массу дубля на продвигаемую. Метод актуален не только для единичных статей, но и в следующих случаях:
- изменение регистра;
- для иерархии URL;
- для настройки основного зеркала;
- для устранения проблем с количеством слешей.
При правильно настроенном перенаправлении можно отправить пользователя со страниц https://site.org/news//, https://site.org/News/// на https://site.org/news/.
Указания для роботов в robots.txt
Каждый веб-мастер дает руководство роботам, какие страницы можно и нужно обходить, а какие нет. Для этого создается специальный файл robots.txt. Здесь прописываются основные команды с применением директив «Allow» и «Disallow».
User-agent: *
Disallow: /news//*
В некоторых случаях подобная практика не работает. Это связывается с уже включением странички в выдачу. Кроме этого, на нее ссылаются другие источники. В robots находятся рекомендации, что не гарантирует удаление дублей.
Метатеги noindex и nofollow
Существует похожий способ контролировать индексацию тех или иных страниц роботом. Для этого прописывается метатег meta name=»robots» content=»noindex, nofollow>. Функция «noindex» указывает на не востребованность роботу проанализировать документ, а «nofollow» что переходить по ссылке необязательно. Это прямая команда, поэтому соблюдается ботом при обходе.
Присутствует схожий метатег <meta name=»robots» content=»noindex, follow>, он указывает на невозможность индексирования, но по ссылке можно переходить. Механизм функционирования упирается в размещении тега в блоке <head>.
Атрибут rel=»canonical»
Популярный способ для удаления дублей. Страницу удалить или перенаправить не можем, информацию поменять также невозможно. Обычно подобная технология используется для решения проблем с пагинацией или с фильтрами. Атрибут rel=»canonical» указывает на основную, которая и попадает в поиск.
Тег показывает эффективность также при работе с временными метками или параметрами GET. В некоторых случаях можно использовать для страниц, где производится печать или предоставляется информация на нескольких языках. Обратите внимание, что параметр понятен только Google, робот от Яндекса проигнорирует его.
Использовать каноническую страницу следует аккуратно. В ряде случаев лучше подготовить дополнительную информацию для фильтров, в том числе при выборе по цвету, по экрану, материалу и так далее. Это позволит повысить конверсию путем привлечения новых клиентов. Но если продвижения не будет, тогда лучше указать на общую категорию.
Обычно каноническая страница задается через HTML, он обязан располагаться в блоке <head>. Для отдельных CMS доступны специальные плагины, позволяющие указывать эту характеристику.
Рассмотрим пример:
https://site.org/index.php
https://site.org/example?filtr1=1
https://site.org/example/print
С указанием канонического адреса https://site.org/, то в коде будет располагаться соответствующая строчка на каждой из трех страниц: <link rel=»canonical» href=»https://site.org/» />. Теперь мы знаем, что такое дубли страниц, как удалить. Остается только применить знания на практике, устранить все недочеты на вашем проекте.
Выводы
- Дубль – это страница, которая обладает повторяющимся контентом, но с различными адресами. Существуют полный или частичные дубли.
- Имеется несколько причин появления проблемы. Сюда попадает автоматическая генерация, ошибки человека, который наполняет проект или изменение шаблона, структуры и так далее.
- Появление дублей в поисковой выдаче ведет к ухудшению индексации, смещения релевантной страничке, потеря веса из-за неправильного указания целевой страницы людьми.
- Для устранения проблемы ее необходимо идентифицировать. Для этого существуют программы по типу Netpeak Spider или с оператором «site:».
- Решение проблем с дублированием осуществляется через переадресацию, использование robots.txt, метатеги или rel=»canonical».
Если проблема устранена? Самое время перепроверить и оценить собственные усилия. Не забывайте тестировать различные методы поиска и решения. Так, вы сможете быстро применять инструменты, которые доступны для устранения проблем внутренней оптимизации.