Работаем с Robots.TXT

Если кто не знает, то имя файла, умпомянутое в заголовке статьи является волшебным для любого интернет-ресурса. Именно с него начинается индексация сайта, а значит присутствие его в резльутатах поиска той или иной ПС. Популярные Google и Яндекс - не исключения. Они, заходя на сайт своими ботами, в первую очередь загружают с него именно этот сайт, нализируют информацию, содержащуюся в нем и по результтам анализа индексируют (или не индексируют) сайт целиком и/или отдельные его части.

Сегодня много работал с этим файлом в Яндекс-Вебмастере. После перехода с движка прошлого поколения (Drupal 6) я так его и не корректировал. А сегодня - как только дотянулись руки, сделал его адекватным, что бы ПС не индексировали все подряд здесь, а добавляли в индекс только статьи, страницы и иные адреса, по которым есть какая-либо полезная информация. Исключил из поиска всякие теги-метки и архивные страницы. В общем привел все в порядок. Сейчас буду объяснять что и как я делал.

Первым делом заходим сюда. Если Ваш сайт добавлен в Яндекс-Вебмастер, то в списке выбираем тот, с файлом robots.txt которого будем работать. Если же Вашего сайта нет в Вашем аккаунте яндекс-вебмастер или у вс еще нет такого аккаунта, то об этом можно уведомить в комментариях - напишу текст "как и что".

Выбрав сайт из списка, попдем в инструмент работы с его файлом robots.txt. Жмем "Загрузить Robots.Txt с сайта", а потом кнопку "Проверить", расположенную ниже. Получаем внизу список используемых Яндекс-ботом строк:

Используемые секции

Строка

19-20
User-agent: *
Crawl-delay: 1

22-33
Disallow: /includes/
Disallow: /misc/
...
Disallow: /node/

35-46
Disallow: /CHANGELOG.txt
Disallow: /cron.php
...
Disallow: /xmlrpc.php

48-56
Disallow: /admin/
Disallow: /comment/reply/
...
Disallow: /user/logout/

58-66
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
...
Disallow: /?q=user/logout/

68-68
Sitemap: http://newscatcher.ru/sitemap.xml

Первые восемнадцать строк закомментированы, поэтому робото начинает читать с девятнадцатой строки:

19-20
User-agent: * - эта строка значит, что указанные ниже директивы относятся ко всем ботам от любых ПС.
Crawl-delay: 1 - время в секундах, чаще которого не стоит делать запросы сайту во время скнирования ботом ПС.

Далее - тоже комментарии и снова используемые строки:

22-33 - в указанных ниже строках я запрещаю индексирование служебных разделов сайта.
Disallow: /includes/
Disallow: /misc/
...
Disallow: /node/ - эта строка вставлена, что бы посты не индексировались по двум разным адресам (их адрес по умолчанию примерно такой: http://newscatcher.ru/node/2031).

В этом же разделе я запретил индексцию архивов, страниц пользователей и страниц меток-рубрик и т.д. Сделал это потому что именно на этих страницах нет уникальных ссылок, полно HTML-кодов и лишних внутренних и внешних ссылок.

Далее - снова комментарии и снова используемые строки:

35-46 - здесь зпрещаем роботам ПС дергать служебные файлы.
Disallow: /CHANGELOG.txt - просто, чтобы не загружать лишний раз роботов и движок сайта.
Disallow: /cron.php - чтобы робот случайно не завел планировщик заданий моей CMS.
...
Disallow: /xmlrpc.php - чтобы робот случайно не запостил мне в блог ничего лишнего.

Там еще много всяких строк, если кому интересно - поясню в комментариях.

Снова комментарии и снова используемый раздел:

48-56 - снова закрываем от ботов разделы, которые не стоит индексировать.
Disallow: /admin/ - тут все понятно, в админке мне и одному тесно.
Disallow: /comment/reply/ - зачем боту индексировать страницы ответов на комментарии?
...
Disallow: /user/logout/ - логиниться и разлогиниваться на сайт ботам не надо.

Дело в том, что движок Drupal может работать в режиме чистых ссылок. Чистые ссылки - это когда в адресе (URL) нет вопросительных знаков. Например:

http://newscatcher.ru/?q=admin/ - это не чистая ссылка, однако то же содержимое откроется по адресу http://newscatcher.ru/admin/, который является уже чистой ссылкой.

Чтобы боты не искали и по грязным ссылкам, запрещенных выше разделов, повторяем инструкции для них:

58-66
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
...
Disallow: /?q=user/logout/

и наконец указываем путь к карте сайта - к файлу, который будет опознан, прочитан и проанализирован ботами ПС:

68-68
Sitemap: http://newscatcher.ru/sitemap.xml

Все. Анализ файла Robots.TXT окончен. Далее роботы обращаться к нему во время своих визитов. Если Вы произвели изменения в структуре сайта, то это необходимо указать в этом файле и рано или поздно роботы подкорректируют отображение Вашего сайта в результатах ПС.