Сегодня мы поговорим о том, как верно написать «robots.txt», что бы боты поисковых систем быстро и верно проиндексировали Ваш интернет-ресурс.
Любой администратор интернет ресурса или web-мастер знает, что это за файл и особенности его написания. Что бы было понятнее, предположим, что сайт – это музей, а боты поисковых систем, например, яндекса и гугла – это люди пришедшие на экскурсию. В там случае файл robots – это гид, который четко знает, куда нужно вести людей, что им показывать, а куда никого пускать не стоит. Что бы все работало верно, нужно правильно написать robots с внесением нужных команд.
Уже по названию “robots.txt ” видно, что это текстовый файл. В нем прописывают правила по индексации для поисковых роботов, располагается в корневой папке веб-сайта- http://имясайта/robots.txt. В случае если он еще не создан, то вы можете при помощи блокнота создать его самостоятельно.
Правила содержащиеся в robots, указывают поисковикам:
- Папки, отдельные страницы, разделы вашего интернет ресурса, которые запрещены к индексированию.
- Основное зеркало сайта (к примеру, “вашсайт.ru “ или “вашсайт.ru”).
- Время между загрузкой поисковым роботом документов и файлов с сервера (используется для снижения нагрузки на сервер, где находится ваш сайт)
Для примера возьмем Joomla 3.3. После того как устанавливается дистрибутив, файл роботс имеет такой вид:
Теперь подробно разберем, какое значение у всех этих команд, для чего они нужны и как их использовать для настройки своего сайта.
Следующие директивы лучше прописывать отдельно для каждого сайта:
<User-agent: * > — эта строка значит, что правила по индексированию веб- сайта для всех поисковиков будут одинаковыми.
Можно так же прописать отдельно правила для каждой поисковой системы.
Например:
<User-agent: Yandex> — запись будет говорит о том, что эти команды только для поискового бота Яндекса. После нее должны перечислятся основные каталоги сайта, которые будут индексироваться.
Все инструкции записанные в robots.txt для Yandex , будут являться “правилом”, а вот для других ботов, например, Google – лишь “рекомендацией”.
<User-agent: Googlebot > — для поискового бота Гугл.
<Disallow > — запрещает поисковикам проводить индексацию указанных URL или папок/разделов интернет-ресурса.
![Disallow- Disallow-](https://prime-ltd.su/wp-content/uploads/2018/02/Disallow-1-1.jpg)
Директива <Allow > напротив “разрешает” доступ для индексирования указанных страниц, папок, файлов. К примеру:
![Allow Allow](https://prime-ltd.su/wp-content/uploads/2018/02/Allow.jpg)
Такая запись значит, что всем поисковым поисковикам доступ к веб-сайту, исключая те страницы, которые начинаются с ”/spitit”.
Если случится так, что одна и та же страница попадет под правила и одновременно, то поисковик Yandex учтет лишь ту директиву у которой длиннее запись «хвостика» URL. Например:
![одна и та же страница попадет под правила и одновременно одна и та же страница попадет под правила и одновременно](https://prime-ltd.su/wp-content/uploads/2018/02/odna-i-ta-zhe-stranitsa-popadet-pod-pravila-i-odnovremenno.jpg)
Запись значит, что страницы начинающиеся с «/razdel»-нельзя индексировать, а те что начинаются с «/razdel/statya» можно индексировать.
Директива <Crawl-delay > обычно используется, для сайтов со слабым хостингом, или очень больших сайтов. С ее помощью указывают время между закачками страниц поисковым ботом, для снижения нагрузки на сервер.
На примере выглядит так:
![Crawl-delay Crawl-delay](https://prime-ltd.su/wp-content/uploads/2018/02/Crawl-delay.jpg)
Для ботов яндекса можно прописывать не только целые числовые значения, например Crawl-delay: 4.5.
Для западных поисковых систем можно так же применять директиву Request-rate : 1/15, что будет означать время между загрузками 15 сек.
Команду< Clean-param > применяют если сайт содержит страницы с часто меняющейся информацией (к примеру, результаты поиска, идентификаторы пользователей и т.д.). Эти параметры складываются из меняющихся цифр, которые дописываются к адресу страницы.
Пример:
![Clean-param Clean-param](https://prime-ltd.su/wp-content/uploads/2018/02/Clean-param.jpg)
Чтобы поисковой бот яндекса не перегружал сервер индексированием подобных страниц, используют вышеупомянутую директиву.
Это пример для результатов поиска:
![Clean-param1 Clean-param1](https://prime-ltd.su/wp-content/uploads/2018/02/Clean-param1.jpg)
Директивой < Sitemap > указывается местоположение карты сайта “sitemaps.xml”. Это файл только для поисковиков, для обеспечения быстрой индексации, и для посетителей сайта полезным не является. Нужно указать все карты сайта, если их несколько, начиная с новой строки каждую.
Например:
![Sitemap Sitemap](https://prime-ltd.su/wp-content/uploads/2018/02/Sitemap-.jpg)
Используя директиву < Host > мы указываем основное зеркало сайта, которое и будет индексироваться. В основном она пишется для ботов Yandex .
![Host Host](https://prime-ltd.su/wp-content/uploads/2018/02/Host-.jpg)
Примечание! Прописывать это правило нужно в поле «User-agent», чуть ниже команд «Disallow«(«Allow«). А вот директиву «Sitemap» можно прописывать, просто пропустив строку вниз.
![Примечание Примечание](https://prime-ltd.su/wp-content/uploads/2018/02/Primechanie.jpg)
Особые символы
«#»— значит что все что написано после него до конца данной строки- комментарий.
«*» – это цепочка символов, в т.ч. нулевая.
К примеру:
![Особые символы Особые символы](https://prime-ltd.su/wp-content/uploads/2018/02/Osobyie-simvolyi.jpg)
В конце каждой директивы по умолчанию автоматически дописывается «*» в конце:
![Особые символы1 Особые символы1](https://prime-ltd.su/wp-content/uploads/2018/02/Osobyie-simvolyi1.jpg)
Что бы убрать этот символ, используем знак “$”. Представим, что раздел «car» нужно закрыть от индексации, а статьи содержащиеся в нем разрешить индексировать.
![Особые-символы3 Особые-символы3](https://prime-ltd.su/wp-content/uploads/2018/02/Osobyie-simvolyi3.jpg)