Robots.TXT - практика

яндекс-вебмастер Недавно я рассказывал о файле robots.txt и обещал вернуться к нему и рассказать о проверке корректности этого файла. Сейчас я хочу выполнить обещание на примере сайта моей половинки - Наша жизнь глазами женщины.

Выбран этот сайт был не случайно. Во-первых - он работает на самом распространенном движке среди начинающих блогеров - Wordpress. Во-вторых - хорошо индексируется ПС Яндекс, на которую ориентируются российские блогеры. В-третьих - автор блога не постеснялась предоставить мне админский доступ. Итак, поехали.

В файле robots.txt обязательно должен быть набор директив для ботов ПС, ограничивающий попытки индексации нежелательных разделов и файлов сайта. Нежелательными для индексации можно назвать все страницы блога, кроме страниц постов и главной страницы (лично мое мнение). Мое мнение основано на том, что именно эти страницы несут наибольшую смысловую нагрузку сайта. Остальные страницы служат для облегчения навигации между страницами постов. Причем правило я считаю справедливым для любых блогов на любых CMS.

Список нежелательных для индексации разделов и страниц сайта photo-lirik.ru.

Итак, в блоге Наша жизнь глазами женщины нежелательными я считаю следующие разделы:

photo-lirik.ru/rubr_/* - страницы рубрик**;
photo-lirik.ru/metk_/* - страницы меток**;
photo-lirik.ru/page/* - страницы старых записей;
photo-lirik.ru/2011/*
photo-lirik.ru/2012/*
photo-lirik.ru/2013/*
photo-lirik.ru/2014/*
photo-lirik.ru/2015/* - страницы архивных записей по годам;
photo-lirik.ru/wp-admin/ - административные страницы;
photo-lirik.ru/wp-includes/ - запчасти "движка", вкрпаления и компоненты;
photo-lirik.ru/wp-content/ - папка, в которой содержатся файлы сайта;
photo-lirik.ru/wp-login/ - страница администраторского входа;

* - в данном случае означает любое содержимое, то есть в photo-lirik.ru/rubr_/* входят и photo-lirik.ru/rubr_/zdorovye, и photo-lirik.ru/rubr_/krasota, и любые другие страницы, существующие на сайте и начинающиеся с photo-lirik.ru/rubr_/.

** - эти разделы отличаются от стандартных разделов Wordpress для рубрик и тегов (меток), поэтому наверняка на вашем сайте они будут иными.

Что бы не изобретать велосипед, берем и качаем стандартный файл robots.txt для CMS Wordpress. Мне понравился этот вариант:

User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /author
Disallow: /comments/feed/

User-agent: Mediapartners-Google*
Allow: /
User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Как видите, в верхнем разделе файла идет список запрещенных к индексации мест на сайте. Причем данная информация ориентирована абсолютно на всех ботов любых поисковых систем (User-agent: *).

Для оптимизации под сайт Наша жизнь глазами женщины перенесу строку, разрешающую индексацию загруженных картинок (User-agent: Googlebot-Image) в раздел, адресованный всем ботам. Удаляю раздел User-agent: Googlebot-Image, оставшийся пустым.

Добавляю в раздел, адресованный всем ботам директивы запрета индексации рубрик (Disallow: /rubr_/) и меток (Disallow: /metk_/). Добавляю в тот же раздел файла запрет на индексацию всех архивов (Disallow: /201*) и страниц с прошлыми постами (Disallow: /page/).

Ну, и добавляем директиву основного зеркала (Host: photo-lirik.ru) и путь к файлу sitemap.xml (Sitemap: http://photo-lirik.ru/wp-content/plugins/xml-sitemap-generator/sitemap.xml). Все готово! Получилось вот что:

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /author
Disallow: /comments/feed/

Allow: /wp-content/uploads/
Disallow: /metk_/
Disallow: /rubr_/
Disallow: /201*
Disallow: /page/

User-agent: Mediapartners-Google*
Allow: /
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /
Host: photo-lirik.ru
Sitemap: http://photo-lirik.ru/wp-content/plugins/xml-sitemap-generator/sitemap.xml
Crawl-delay: 3

Сохраняем в текстовый файл с нужной нам кодировкой (в данном случае - UTF8), обзываем его robots.txt. Закачиваем в корень своего сайта и совершаем проверку.

Проверка файла robots.txt.

Заходим в Яндекс-Вебмастер, в соответствующий раздел, выбираем нужный сайт (если их у вас несколько) и жмем "Загрузить robots.txt с сайта". Жмем Список URL (добавить) и вносим туда по одному (или по два-три-четыре) представителю из каждого раздела нежелательных для индексации адресов. Можно так же добавить парочку адресов обычных постов, чтобы убедиться в том, что они не запрещены к индексации. У меня в том окне получился вот такой список:

http://photo-lirik.ru/kak-originalno-pozdravit-nachalnika-s-dnem-rozhdeniya.html
http://photo-lirik.ru/rubr_/pozitiv
http://photo-lirik.ru/metk_/prazdnik
http://photo-lirik.ru/page/4
http://photo-lirik.ru/2013/07
http://photo-lirik.ru/wp-admin/plugins.php?page=xml-sitemap-generator/wp-xml-sitemap-generator.php

Жмем кнопку Проверить, через секунду получаем результат - наш список адресов и напротив каждого красным или зеленым пометка о возможности индексации этого URL ПС Яндекс.

В идеале должно получиться как у меня - зелеными (индексируемыми) оказались только адреса постов, вернее один адрес поста. Если у вас вышло иначе - значит что-то в файле robots.txt не так. Это может стать причиной некорректной индексации, а то и вовсе ее ограничения из-за возникновения дублей.