Правильный Robots.txt для Joomla

Содержание

Что собой представляет robots.txt?
Как правильно составить файл роботс
Шаблон правильного robots.txt для Joomla

Сегодня мы поговорим о том, как верно написать «robots.txt», что бы боты поисковых систем быстро и верно проиндексировали Ваш интернет-ресурс.

Любой администратор интернет ресурса или web-мастер знает, что это за файл и особенности его написания. Что бы было понятнее, предположим, что сайт – это музей, а боты поисковых систем, например, яндекса и гугла – это люди пришедшие на экскурсию. В там случае файл robots – это гид, который четко знает, куда нужно вести людей, что им показывать, а куда никого пускать не стоит. Что бы все работало верно, нужно правильно написать robots с внесением нужных команд.

Что собой представляет robots.txt?

Уже по названию “robots.txt ” видно, что это текстовый файл. В нем прописывают правила по индексации для поисковых роботов, располагается в корневой папке веб-сайта- http://имясайта/robots.txt. В случае если он еще не создан, то вы можете при помощи блокнота создать его самостоятельно.

Правила содержащиеся в robots, указывают поисковикам:

Папки, отдельные страницы, разделы вашего интернет ресурса, которые запрещены к индексированию.
Основное зеркало сайта (к примеру, “вашсайт.ru “ или “вашсайт.ru”).
Время между загрузкой поисковым роботом документов и файлов с сервера (используется для снижения нагрузки на сервер, где находится ваш сайт)

Как правильно составить файл роботс

Для примера возьмем Joomla 3.3. После того как устанавливается дистрибутив, файл роботс имеет такой вид:

Теперь подробно разберем, какое значение у всех этих команд, для чего они нужны и как их использовать для настройки своего сайта.

Следующие директивы лучше прописывать отдельно для каждого сайта:

<User-agent: * > — эта строка значит, что правила по индексированию веб- сайта для всех поисковиков будут одинаковыми.

Можно так же прописать отдельно правила для каждой поисковой системы.

Например:

<User-agent: Yandex> — запись будет говорит о том, что эти команды только для поискового бота Яндекса. После нее должны перечислятся основные каталоги сайта, которые будут индексироваться.

Все инструкции записанные в robots.txt для Yandex , будут являться “правилом”, а вот для других ботов, например, Google – лишь “рекомендацией”.

<User-agent: Googlebot > — для поискового бота Гугл.

<Disallow > — запрещает поисковикам проводить индексацию указанных URL или папок/разделов интернет-ресурса.

Директива <Allow > напротив “разрешает” доступ для индексирования указанных страниц, папок, файлов. К примеру:

Такая запись значит, что всем поисковым поисковикам доступ к веб-сайту, исключая те страницы, которые начинаются с ”/spitit”.

Если случится так, что одна и та же страница попадет под правила и одновременно, то поисковик Yandex учтет лишь ту директиву у которой длиннее запись «хвостика» URL. Например:

Запись значит, что страницы начинающиеся с «/razdel»-нельзя индексировать, а те что начинаются с «/razdel/statya» можно индексировать.

Директива <Crawl-delay > обычно используется, для сайтов со слабым хостингом, или очень больших сайтов. С ее помощью указывают время между закачками страниц поисковым ботом, для снижения нагрузки на сервер.

На примере выглядит так:

Для ботов яндекса можно прописывать не только целые числовые значения, например Crawl-delay: 4.5.

Для западных поисковых систем можно так же применять директиву Request-rate : 1/15, что будет означать время между загрузками 15 сек.

Команду< Clean-param > применяют если сайт содержит страницы с часто меняющейся информацией (к примеру, результаты поиска, идентификаторы пользователей и т.д.). Эти параметры складываются из меняющихся цифр, которые дописываются к адресу страницы.

Пример:

Чтобы поисковой бот яндекса не перегружал сервер индексированием подобных страниц, используют вышеупомянутую директиву.

Это пример для результатов поиска:

Директивой < Sitemap > указывается местоположение карты сайта “sitemaps.xml”. Это файл только для поисковиков, для обеспечения быстрой индексации, и для посетителей сайта полезным не является. Нужно указать все карты сайта, если их несколько, начиная с новой строки каждую.

Например:

Используя директиву < Host > мы указываем основное зеркало сайта, которое и будет индексироваться. В основном она пишется для ботов Yandex .

Примечание! Прописывать это правило нужно в поле «User-agent», чуть ниже команд «Disallow«(«Allow«). А вот директиву «Sitemap» можно прописывать, просто пропустив строку вниз.

Особые символы

«#»— значит что все что написано после него до конца данной строки- комментарий.

«*» – это цепочка символов, в т.ч. нулевая.

К примеру:

В конце каждой директивы по умолчанию автоматически дописывается «*» в конце:

Что бы убрать этот символ, используем знак “$”. Представим, что раздел «car» нужно закрыть от индексации, а статьи содержащиеся в нем разрешить индексировать.

Шаблон правильного robots.txt для Joomla

#К какому роботу обращаемся (по умолчанию ко всем)
User-agent: *
#разрешаем доступ к карте сайта
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
#Запрет доступа к админ панели
Disallow: /administrator/
#Запрет доступа к кешу
Disallow: /cache/
#Запрет доступа к компонентам joomla
Disallow: /components/
#Запрещает доступ к папке includes
Disallow: /includes/
#Запрет доступа к языковым пакетам
Disallow: /language/
#Запрет доступа к библиотекам
Disallow: /libraries/
#Запрет доступа к логам
Disallow: /logs/
#Запрет доступа к папке медиа
Disallow: /media/
#Запрет доступа к модулям
Disallow: /modules/
#Запрет индексации плагинов
Disallow: /plugins/
#Папка с вашими шаблонами
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
#Запрет на индексацию формы отправки писем
Disallow: /*com_mailto
#Запрет на индексацию всплывающих окон
Disallow: /*pop=
#Запрет на индексацию дополнительных языков сайта
Disallow: /*lang=ru
#Запрет индексации ссылки вывода на печать
Disallow: /*format=
Disallow: /*print=
#Голосования
Disallow: /*task=vote
#Водяные знаки
Disallow: /*=watermark
#Ссылки на скачивание
Disallow: /*=download
#Профили пользователей
Disallow: /*user/
#Запрет индексации 404 ошибки
Disallow: /404
#Запрет индексации ? и переменных
Disallow: /index.php?
Disallow: /*?
#ссылки содержащие данный знак индексироваться не будут
Disallow: /*%
#ссылки содержащие данный знак индексироваться не будут
Disallow: /*&
#Запрет дублей
Disallow: /index2.php
#Запрет индексации облаков тегов
Disallow: /*tag
#Запрет pdf файлов (на ваше усмотрение)
Disallow: /*.pdf
#Если есть на сайте swf файлы — flash (на ваше усмотрение)
Disallow: /*.swf
#Запрет индексации ссылки на печать
Disallow: /*print=1
#Запрет параметра
Disallow: /*=atom
#Запрещаем RSS
Disallow: /*=rss