Запрет индексации в файле robots.txt

В этой статье мы разберем файл «Robots.txt», для чего он необходим, и как ним работать.

Robots.txt это файл в формате «.txt», который содержит директивы для индексации определенного сайта. Другими словами, этот файл указывает поисковым системам, какие страницы веб-ресурса нужно проиндексировать, а какие запретить к индексации.

Веб-индексирование — это добавления данных о сайте ботом, системы поиска, в базу данных, которая в дальнейшем используется для поиска информации на проиндексированных сайтах.

Сведенья о сайте это — ключевые слова , статьи, ссылки, документы, изображения, аудио файлы и т. д.

Использование «robots.txt» и карты сайта( «Sitemap xml») позволяют управлять индексацией Вашего сайта и скрыть, страницы, которые не относятся к основной направленности сайта, например: служебные страницы, дубликаты, информацию для печати и т.п..

Содержание

Как управлять индексированием
Ошибки
Длительность индексации

Как управлять индексированием

Файл «robots» находится в коревой папке сайта, просмотреть его можно по адресу: http://vash_site.com/robots.txt.

Если Вам потребовалось закрыть от индексации в Google страницу , например http:// vash_site.com /page-for-robots/. Для этого нужно применить директиву Disallow :

User-agent: Google
Disallow: /page-for-robots/
Host: vash_site.com

Если же нужно скрыть от индексации весь сайт кроме определенного раздела, например http:// vash_site.com /category/case/, нужно сделать следующим образом:

User-agent: Google Disallow: / Allow: /category/case/ Host: vash_site.com

Если же нужно скрыть от индексации весь сайт кроме определенного раздела, например, http:// vash_site.com /category/case/, нужно сделать следующим образом:

User-agent: Google Disallow: / Allow: /category/case/ Host: vash_site.com

Как вы уже поняли, директива «Allow» указывает какую страницу/ раздел/ файл нужно проиндексировать.

Еще один способ скрыть страницу или сайт – мета – тег NAME=»ROBOTS» #.

Для закрытия от индексации внутри тегов <head> </head> документа прописывается такой код:

<meta name="robots" content="noindex, nofollow"/>
Или
<meta name="robots" content="none"/>

Так же можно вместо name=»robots» использовать имя конкретного робота, например:

Для паука Google: <meta name="googlebot" content="noindex, nofollow"/>

Или для Яндекса: <meta name="yandex" content="none"/>

Директива «User-agent» содержит название поискового робота. При помощи нее в файле «robots.txt» можно настроить индексацию сайта для каждого конкретной поисковой системы.

В каждой системе поиска бот имеет свое название, ниже мы приведем список роботов самых популярных поисковиков:

Google http://www.google.com Googlebot

Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)

AOL http://www.aol.com Slurp

MSN http://www.msn.com MSNBot

Live http://www.live.com MSNBot

Ask http://www.ask.com Teoma

AltaVista http://www.altavista.com Scooter

Alexa http://www.alexa.com ia_archiver

Lycos http://www.lycos.com Lycos

Яндекс http://www.ya.ru Yandex

Рамблер http://www.rambler.ru StackRambler

Мэйл.ру http://mail.ru Mail.Ru

Aport http://www.aport.ru Aport

Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)

Можно написать универсальные правила индексации, которые будут применимы ко всем поисковикам, используя « User-agent: *»

User-agent: * Disallow: / Allow: /category/case/ Host: vash_site.com

Одной из важных считается директива Host, в ней нужно прописать основное зеркало сайта. Что бы это сделать, нужно выяснить какое зеркало является основным.

Для этого нужно ввести в поисковик адрес Вашего сайта, навести курсор на URL в выдаче и внизу слева будет прописан домен с «www» или без него.

Например:

После того как Вы определили главное зеркало сайта, его нужно прописать в Robots.txt:

Host: vash_site.com.

Ошибки

Даже если веб-мастер хорошо разбирается в командах, это не означает, что он застрахован от ошибок. У неопытных разработчиков сайтов прослеживается целый ряд типичных ошибок. Многие часто путают значения директив, так как не понимают их значений. К примеру, не там ставят знак «/» или вписывают имя робота после директивы Disallow.

Зачастую перечисляют запрещенные страницы друг за другом, тогда директиву к каждой странице следует писать отдельно. Множество ошибок связано с именем файла. Его следует писать маленькими буквами, без заглавных букв.

Длительность индексации

Файлы robots индексирует ресурсы согласно информации. Срок проведения процедуры может составлять от одной до двух, трех недель, особенно на сайте Яндекса. На сегодняшний день самым медленным считается поисковик Гугл, который еще не так давно (2012 г) занимал первое место.

Если сайт размещен, однако постоянно изменяется, корректируется и на нем видна свежая информация, индексации страниц ускоряется.

Виды поисковых роботов

Варианты поисковых роботов меняются в зависимости от предопределения программы.

«Зеркальными», так как работают на схожих сайтах;
Мобильными — для мобильных вариаций интернета;
Ультрадействующими — быстро рассматривают новую информацию;
Ссылочными, рассматривают и подсчитывают ссылки;
«Шпионскими» — так как отыскивают страницы, не отображающие в ПС;
«Дятлами» — это те, кто время от времени заходят на сайты для проверки;
Национальными — контролируют только веб-ресурсы одной страны, например,
Глобальными — рассматривают ресурсы всей паутины, всего мира.

Хотя такие поисковые системы как Гугл и Яндекс являются лидерами, существуют множество систем, имеющих своих роботов. На деле весь процесс запрета или исключения достаточно прост, но если нет уверенности в своих силах, лучше оставить все на индексацию, система сама выберет то, что посчитает важным.