Частая проблема современных сайтов — это появление дублей. За дубли поисковики понимают страницы, которые можно открыть по разным адресам, но контент при этом будет один и тот же. Поисковые системы не могут эффективно работать с этой проблемой, поскольку у них нет встроенного алгоритма индексации в таких случаях.
Именно для этого и был создан мета тег Rel Canonical, как атрибут url-адреса, прописанный в исходных кодах страниц, он задает поисковому роботу алгоритм, по которому необходимо проводить индексацию. Он четко дает поисковику понять, что перед ним не дубли (и контент по-прежнему остается актуальным на каждой из них), а одна из страницы является основной, остальные же — дополнительными.
Пример дублированной web-страницы
В адресе сайта стартовая страница может быть доступна по следующим обозначениям:
-
-
-
- .ru;
- .primer.ru;
- .ru/;
- .ru/index.php.
-
-
В глазах поисковика под каждым из этих обозначений находится разные ресурсы, но у них будет дублироваться содержание. То есть, Гугл посчитает, что есть четыре разных сайта с абсолютно идентичным контентом – соответственно, могут возникнуть проблемы с индексацией.
Зачем нужен этот тег
Тег rel=«canonical» нужен для того, чтобы задать поисковой системе алгоритм индексации страниц: он указывает на то, какая версия является основной. Именно ее и необходимо индексировать для того, чтобы получить хорошие позиции в выдаче.
Принцип работы
Представим, что у нас есть страница сайта, на которую можно перейти сразу через несколько url адресов: например, через тот, который заканчивается на .ru, и через тот, который заканчивается на .ru/. Нам нужно показать поисковому роботу, какая версия является основной (то есть – канонической). Для этого в исходный код для каждого документа мы добавляем тег:
Фрагмент должен быть размещен в коде между тегом <head> и </head>. После его размещения страница будет индексироваться поисковиком как основная, и она же будет отображаться в выдаче (хотя и случаются нарушения). Тем не менее, самые крупные поисковики тег распознают.
Почему вообще возникают дубли
На самом деле, создание дублированных страницы – это не намеренное действие от системы управления контентом (CMS), а просто следствие неправильной ее настройки.
Часто дубли появляются потому что:
-
-
-
- размещены архивные записи со старыми материалами;
- пользователям предлагаются ссылки на свободную загрузку документов в PDF формате;
- структура сайта плохо проработана – в разных категориях встречаются идентичные материалы;
- на сайт нет динамических url адресов (такая проблема актуальна для интернет-магазинов).
-
-
Для того, чтобы определить дубли, можно использовать специальный инструмент для вебмастеров от Гугла. С помощью перехода на раздел оптимизации html (он находится во вкладке «вид в поиске») нужно найти документы, на которых повторяются метаописания – чаще всего именно они имеют один и тот же контент.
Рекомендации по работе со ссылками
Поисковая система Гугла может некорректно проводить индексацию в том случае, если rel canonical используется для направления файла robots.
Очень важно не делать различные канонические url адреса для одной и той же страницы. Также не рекомендуется использовать относительные адреса: для корректной индексации нужно задавать атрибутом link rel абсолютные адреса.