Сегодня мы поговорим о том, как верно написать «robots.txt», что бы боты поисковых систем быстро и верно проиндексировали Ваш интернет-ресурс.
Любой администратор интернет ресурса или web-мастер знает, что это за файл и особенности его написания. Что бы было понятнее, предположим, что сайт – это музей, а боты поисковых систем, например, яндекса и гугла – это люди пришедшие на экскурсию. В там случае файл robots – это гид, который четко знает, куда нужно вести людей, что им показывать, а куда никого пускать не стоит. Что бы все работало верно, нужно правильно написать robots с внесением нужных команд.
Уже по названию “robots.txt ” видно, что это текстовый файл. В нем прописывают правила по индексации для поисковых роботов, располагается в корневой папке веб-сайта- http://имясайта/robots.txt. В случае если он еще не создан, то вы можете при помощи блокнота создать его самостоятельно.
Правила содержащиеся в robots, указывают поисковикам:
- Папки, отдельные страницы, разделы вашего интернет ресурса, которые запрещены к индексированию.
- Основное зеркало сайта (к примеру, “вашсайт.ru “ или “вашсайт.ru”).
- Время между загрузкой поисковым роботом документов и файлов с сервера (используется для снижения нагрузки на сервер, где находится ваш сайт)
Для примера возьмем Joomla 3.3. После того как устанавливается дистрибутив, файл роботс имеет такой вид:
Теперь подробно разберем, какое значение у всех этих команд, для чего они нужны и как их использовать для настройки своего сайта.
Следующие директивы лучше прописывать отдельно для каждого сайта:
<User-agent: * > — эта строка значит, что правила по индексированию веб- сайта для всех поисковиков будут одинаковыми.
Можно так же прописать отдельно правила для каждой поисковой системы.
Например:
<User-agent: Yandex> — запись будет говорит о том, что эти команды только для поискового бота Яндекса. После нее должны перечислятся основные каталоги сайта, которые будут индексироваться.
Все инструкции записанные в robots.txt для Yandex , будут являться “правилом”, а вот для других ботов, например, Google – лишь “рекомендацией”.
<User-agent: Googlebot > — для поискового бота Гугл.
<Disallow > — запрещает поисковикам проводить индексацию указанных URL или папок/разделов интернет-ресурса.

Директива <Allow > напротив “разрешает” доступ для индексирования указанных страниц, папок, файлов. К примеру:

Такая запись значит, что всем поисковым поисковикам доступ к веб-сайту, исключая те страницы, которые начинаются с ”/spitit”.
Если случится так, что одна и та же страница попадет под правила и одновременно, то поисковик Yandex учтет лишь ту директиву у которой длиннее запись «хвостика» URL. Например:

Запись значит, что страницы начинающиеся с «/razdel»-нельзя индексировать, а те что начинаются с «/razdel/statya» можно индексировать.
Директива <Crawl-delay > обычно используется, для сайтов со слабым хостингом, или очень больших сайтов. С ее помощью указывают время между закачками страниц поисковым ботом, для снижения нагрузки на сервер.
На примере выглядит так:

Для ботов яндекса можно прописывать не только целые числовые значения, например Crawl-delay: 4.5.
Для западных поисковых систем можно так же применять директиву Request-rate : 1/15, что будет означать время между загрузками 15 сек.
Команду< Clean-param > применяют если сайт содержит страницы с часто меняющейся информацией (к примеру, результаты поиска, идентификаторы пользователей и т.д.). Эти параметры складываются из меняющихся цифр, которые дописываются к адресу страницы.
Пример:

Чтобы поисковой бот яндекса не перегружал сервер индексированием подобных страниц, используют вышеупомянутую директиву.
Это пример для результатов поиска:

Директивой < Sitemap > указывается местоположение карты сайта “sitemaps.xml”. Это файл только для поисковиков, для обеспечения быстрой индексации, и для посетителей сайта полезным не является. Нужно указать все карты сайта, если их несколько, начиная с новой строки каждую.
Например:

Используя директиву < Host > мы указываем основное зеркало сайта, которое и будет индексироваться. В основном она пишется для ботов Yandex .

Примечание! Прописывать это правило нужно в поле «User-agent», чуть ниже команд «Disallow«(«Allow«). А вот директиву «Sitemap» можно прописывать, просто пропустив строку вниз.

Особые символы
«#»— значит что все что написано после него до конца данной строки- комментарий.
«*» – это цепочка символов, в т.ч. нулевая.
К примеру:

В конце каждой директивы по умолчанию автоматически дописывается «*» в конце:

Что бы убрать этот символ, используем знак “$”. Представим, что раздел «car» нужно закрыть от индексации, а статьи содержащиеся в нем разрешить индексировать.
