
В этой статье мы разберем файл «Robots.txt», для чего он необходим, и как ним работать.
Robots.txt это файл в формате «.txt», который содержит директивы для индексации определенного сайта. Другими словами, этот файл указывает поисковым системам, какие страницы веб-ресурса нужно проиндексировать, а какие запретить к индексации.
Веб-индексирование — это добавления данных о сайте ботом, системы поиска, в базу данных, которая в дальнейшем используется для поиска информации на проиндексированных сайтах.
Сведенья о сайте это — ключевые слова , статьи, ссылки, документы, изображения, аудио файлы и т. д.
Использование «robots.txt» и карты сайта( «Sitemap xml») позволяют управлять индексацией Вашего сайта и скрыть, страницы, которые не относятся к основной направленности сайта, например: служебные страницы, дубликаты, информацию для печати и т.п..

Если Вам потребовалось закрыть от индексации в Google страницу , например http:// vash_site.com /page-for-robots/. Для этого нужно применить директиву Disallow :
User-agent: Google
Disallow: /page-for-robots/
Host: vash_site.com
Если же нужно скрыть от индексации весь сайт кроме определенного раздела, например http:// vash_site.com /category/case/, нужно сделать следующим образом:
User-agent: Google
Disallow: /
Allow: /category/case/
Host: vash_site.com
Если же нужно скрыть от индексации весь сайт кроме определенного раздела, например, http:// vash_site.com /category/case/, нужно сделать следующим образом:
User-agent: Google
Disallow: /
Allow: /category/case/
Host: vash_site.com
Как вы уже поняли, директива «Allow» указывает какую страницу/ раздел/ файл нужно проиндексировать.
Еще один способ скрыть страницу или сайт – мета – тег NAME=»ROBOTS» #.
Для закрытия от индексации внутри тегов <head> </head> документа прописывается такой код:
<meta name="robots" content="noindex, nofollow"/>
Или
<meta name="robots" content="none"/>
Так же можно вместо name=»robots» использовать имя конкретного робота, например:
Для паука Google:
<meta name="googlebot" content="noindex, nofollow"/>
Или для Яндекса:
<meta name="yandex" content="none"/>
Директива «User-agent» содержит название поискового робота. При помощи нее в файле «robots.txt» можно настроить индексацию сайта для каждого конкретной поисковой системы.
В каждой системе поиска бот имеет свое название, ниже мы приведем список роботов самых популярных поисковиков:
Google http://www.google.com Googlebot
Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
AOL http://www.aol.com Slurp
MSN http://www.msn.com MSNBot
Live http://www.live.com MSNBot
Ask http://www.ask.com Teoma
AltaVista http://www.altavista.com Scooter
Alexa http://www.alexa.com ia_archiver
Lycos http://www.lycos.com Lycos
Яндекс http://www.ya.ru Yandex
Рамблер http://www.rambler.ru StackRambler
Мэйл.ру http://mail.ru Mail.Ru
Aport http://www.aport.ru Aport
Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)
Можно написать универсальные правила индексации, которые будут применимы ко всем поисковикам, используя « User-agent: *»
User-agent: *
Disallow: /
Allow: /category/case/
Host: vash_site.com
Одной из важных считается директива Host, в ней нужно прописать основное зеркало сайта. Что бы это сделать, нужно выяснить какое зеркало является основным.
Для этого нужно ввести в поисковик адрес Вашего сайта, навести курсор на URL в выдаче и внизу слева будет прописан домен с «www» или без него.
Например:

После того как Вы определили главное зеркало сайта, его нужно прописать в Robots.txt:
Host: vash_site.com.
Даже если веб-мастер хорошо разбирается в командах, это не означает, что он застрахован от ошибок. У неопытных разработчиков сайтов прослеживается целый ряд типичных ошибок. Многие часто путают значения директив, так как не понимают их значений. К примеру, не там ставят знак «/» или вписывают имя робота после директивы Disallow.
Зачастую перечисляют запрещенные страницы друг за другом, тогда директиву к каждой странице следует писать отдельно. Множество ошибок связано с именем файла. Его следует писать маленькими буквами, без заглавных букв.
Файлы robots индексирует ресурсы согласно информации. Срок проведения процедуры может составлять от одной до двух, трех недель, особенно на сайте Яндекса. На сегодняшний день самым медленным считается поисковик Гугл, который еще не так давно (2012 г) занимал первое место.
Если сайт размещен, однако постоянно изменяется, корректируется и на нем видна свежая информация, индексации страниц ускоряется.
Виды поисковых роботов
Варианты поисковых роботов меняются в зависимости от предопределения программы.
- «Зеркальными», так как работают на схожих сайтах;
- Мобильными — для мобильных вариаций интернета;
- Ультрадействующими — быстро рассматривают новую информацию;
- Ссылочными, рассматривают и подсчитывают ссылки;
- «Шпионскими» — так как отыскивают страницы, не отображающие в ПС;
- «Дятлами» — это те, кто время от времени заходят на сайты для проверки;
- Национальными — контролируют только веб-ресурсы одной страны, например,
- Глобальными — рассматривают ресурсы всей паутины, всего мира.
Хотя такие поисковые системы как Гугл и Яндекс являются лидерами, существуют множество систем, имеющих своих роботов. На деле весь процесс запрета или исключения достаточно прост, но если нет уверенности в своих силах, лучше оставить все на индексацию, система сама выберет то, что посчитает важным.