Robots.TXT - практика

Опубликовано mobilekid - пт, 09/01/2015 - 19:13

яндекс-вебмастерНедавно я рассказывал о файле robots.txt и обещал вернуться к нему и рассказать о проверке корректности этого файла. Сейчас я хочу выполнить обещание на примере сайта моей половинки - Наша жизнь глазами женщины.

Выбран этот сайт был не случайно. Во-первых - он работает на самом распространенном движке среди начинающих блогеров - Wordpress. Во-вторых - хорошо индексируется ПС Яндекс, на которую ориентируются российские блогеры. В-третьих - автор блога не постеснялась предоставить мне админский доступ. Итак, поехали.

В файле robots.txt обязательно должен быть набор директив для ботов ПС, ограничивающий попытки индексации нежелательных разделов и файлов сайта. Нежелательными для индексации можно назвать все страницы блога, кроме страниц постов и главной страницы (лично мое мнение). Мое мнение основано на том, что именно эти страницы несут наибольшую смысловую нагрузку сайта. Остальные страницы служат для облегчения навигации между страницами постов. Причем правило я считаю справедливым для любых блогов на любых CMS.

 

Список нежелательных для индексации разделов и страниц сайта photo-lirik.ru.

 

 

Итак, в блоге Наша жизнь глазами женщины нежелательными я считаю следующие разделы:

  1. photo-lirik.ru/rubr_/* - страницы рубрик**;
  2. photo-lirik.ru/metk_/* - страницы меток**;
  3. photo-lirik.ru/page/* - страницы старых записей;
  4. photo-lirik.ru/2011/*
  5. photo-lirik.ru/2012/*
  6. photo-lirik.ru/2013/*
  7. photo-lirik.ru/2014/*
  8. photo-lirik.ru/2015/* - страницы архивных записей по годам;
  9. photo-lirik.ru/wp-admin/ - административные страницы;
  10. photo-lirik.ru/wp-includes/ - запчасти "движка", вкрпаления и компоненты;
  11. photo-lirik.ru/wp-content/ - папка, в которой содержатся файлы сайта;
  12. photo-lirik.ru/wp-login/ - страница администраторского входа;

* - в данном случае означает любое содержимое, то есть в photo-lirik.ru/rubr_/* входят и photo-lirik.ru/rubr_/zdorovye, и photo-lirik.ru/rubr_/krasota, и любые другие страницы, существующие на сайте и начинающиеся с photo-lirik.ru/rubr_/.

** - эти разделы отличаются от стандартных разделов Wordpress для рубрик и тегов (меток), поэтому наверняка на вашем сайте они будут иными.


Что бы не изобретать велосипед, берем и качаем стандартный файл robots.txt для CMS Wordpress. Мне понравился этот вариант:

 

User-agent:  *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /author
Disallow: /comments/feed/

 

User-agent: Mediapartners-Google*
Allow: /

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /



Как видите, в верхнем разделе файла идет список запрещенных к индексации мест на сайте. Причем данная информация ориентирована абсолютно на всех ботов любых поисковых систем (User-agent:  *).

 

Для оптимизации под сайт Наша жизнь глазами женщины перенесу строку, разрешающую индексацию загруженных картинок (User-agent: Googlebot-Image) в раздел, адресованный всем ботам. Удаляю раздел User-agent: Googlebot-Image, оставшийся пустым.

Добавляю в раздел, адресованный всем ботам директивы запрета индексации рубрик (Disallow: /rubr_/) и меток (Disallow: /metk_/). Добавляю в тот же раздел файла запрет на индексацию всех архивов (Disallow: /201*) и страниц с прошлыми постами (Disallow: /page/).

Ну, и добавляем директиву основного зеркала (Host: photo-lirik.ru) и путь к файлу sitemap.xml (Sitemap: http://photo-lirik.ru/wp-content/plugins/xml-sitemap-generator/sitemap.xml). Все готово! Получилось вот что:

 

User-agent:  *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /author
Disallow: /comments/feed/

 

Allow: /wp-content/uploads/

Disallow: /metk_/

Disallow: /rubr_/

Disallow: /201*

Disallow: /page/

 

User-agent: Mediapartners-Google*
Allow: /

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

Host: photo-lirik.ru

Sitemap: http://photo-lirik.ru/wp-content/plugins/xml-sitemap-generator/sitemap.xml

Crawl-delay: 3

 

Сохраняем в текстовый файл с нужной нам кодировкой (в данном случае - UTF8), обзываем его robots.txt. Закачиваем в корень своего сайта и совершаем проверку.

 

Проверка файла robots.txt.

 

Заходим в Яндекс-Вебмастер, в соответствующий раздел, выбираем нужный сайт (если их у вас несколько) и жмем "Загрузить robots.txt с сайта". Жмем Список URL (добавить) и вносим туда по одному (или по два-три-четыре) представителю из каждого раздела нежелательных для индексации адресов. Можно так же добавить парочку адресов обычных постов, чтобы убедиться в том, что они не запрещены к индексации. У меня в том окне получился вот такой список:

 

http://photo-lirik.ru/kak-originalno-pozdravit-nachalnika-s-dnem-rozhdeniya.html
http://photo-lirik.ru/rubr_/pozitiv
http://photo-lirik.ru/metk_/prazdnik
http://photo-lirik.ru/page/4
http://photo-lirik.ru/2013/07
http://photo-lirik.ru/wp-admin/plugins.php?page=xml-sitemap-generator/wp-xml-sitemap-generator.php

 

Жмем кнопку Проверить, через секунду получаем результат - наш список адресов и напротив каждого красным или зеленым пометка о возможности индексации этого URL ПС Яндекс.

В идеале должно получиться как у меня - зелеными (индексируемыми) оказались только адреса постов, вернее один адрес поста. Если у вас вышло иначе - значит что-то в файле robots.txt не так. Это может стать причиной некорректной индексации, а то и вовсе ее ограничения из-за возникновения дублей.