
В этой статье мы разберем каким должен быть правильно написанный служебный файл«robots» для WordPress.
Для начала вспомним, зачем нужен это служебный файл и что это такое. Итак, robots.txt – используется роботами поисковых систем, в нем указывается какие папки, подразделы и файлы можно подвергать индексации, а какие нет. Как скрыть от индексирования те или другие страницы мы подробно разобрали в статье «Запрет индексации в файле robots.txt».
Если у сайта есть поддомены, то для каждого из них robots.txt составляется персонально.
Сам файл robots.txt должен находиться в корневом каталоге вашего сайта. Что бы его просмотреть, достаточно просто ввести в адресную строку robots.txt, после имени сайта. Например: https://mysite.com/robots.txt
Сразу хочется отметить, что универсального файла, подходящего абсолютно всем сайтам на написанным платформе WordPress, не существует. Достаточно много зависит от настроек сайта, его структуры и даже установленных плагинов.
Рассмотрим пример когда используется человеко-понятный URL (или ЧПУ) и постоянные ссылки вида «postname».
ВордПресс, как и каждая CRM система имеет каталоги, папки, которые не имеют отношения к содержимому сайта и должны быть скрыты. Для этого нужно запретить их индексацию, что делается следующим образом:
1 Disallow: /cgi-bin
2 Disallow: /wp-
Директива, прописанная во второй строчке, запретит доступ ко всем файлам , которые начинаются с /wp-, такие как:
- wp-admin
- wp-content
- wp-includes
Обычно все графические файлы загружаются в папку uploads, она входит в состав каталога wp-content. Разрешим их индексацию:
1 Allow: */uploads
Теперь уберем дубли, снижающие уникальность контента. К дублям отностся: страницы категорий, авторов, тегов, RSS-фидов, а также постраничная навигация, трекбеки и отдельные страницы с комментариями. Запретим их индексацию:
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: */feed/
Disallow: */trackback
Disallow: */comments

Если вы используете ЧПУ, страницы в URL которых содержатся знаки вопроса, часто являются «лишними», дублирующими контент. Их рекомендуется так же скрыть:
Disallow: */?
Проблемой смогут стать страницы в адресной сроке которых указывается год, месяц, например, страницы архивов. Что бы их скрыть применим маску «20*»:
Disallow: /20*
В правильно написанном robots.txt для WordPress обязательно нужно указать путь к карте сайта:
Sitemap: http://prime-ltd.su/sitemap.xml
Так же нужно прописать доп. информацию для поисковых ботов:
Host: prime-ltd.su – директива Host — указывает на главное зеркало для Яндекса
Host: http://prime-ltd.su– протокол указывается при работе сайта по HTTPS
Пример верно написанного robots.txt, в случае если вы используете ЧПУ:
User-agent: * -
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: mysite.com
Sitemap: http://mysite.com/sitemap.xml.gz
Sitemap: http://mysite.com/sitemap.xml
Пример верно написанного robots.txt, в случае если вы НЕ используете ЧПУ:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: mysite.com
Sitemap: http://mysite.com /sitemap.xml.gz
Sitemap: http://mysite.com /sitemap.xml
Для проверки верности написания файла, можно использовать сервис Яндекс Вебмастер .
Заходим в “Настройки индексирования –> Анализ robots.txt”:
Нажимаем “Загрузить robots.txt с сайта”, а затем “Проверить”:
Если вы увидели следующую картину, то вы все прописали верно.
Спасибо! Роботс отличный!
Спасибо! Всё понятно расписано. Интересная получилась статья.