robots.txt

Robots.txt — самый популярный способ закрыть страницу сайта от индексации поисковыми системами.
В этой статье мы не будем разбираться для чего это делается, но проясним как.
Картинка robots.txt

Правила оформления файла robots.txt

В платном аудите сайта этот файл проверяется по следующим пунктам:

Проверка наличия файла robots.txtОбычно находится в корне сайта, и если это не так, то его можно создать вручную.
Должен открываться по ссылке site.ru/robots.txt
Проверка файла robots.txt валидатором на наличие ошибокСвой файл можно проверить на валидность в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
Проверка необходимости указания директивы User-agent для ПС Яндекс/ГуглУ себя я не указываю отдельные директивы для Яндекса и Гугла, но такой функционал есть.
Проверка указания общей директивы User-agent:*У меня все правила указаны под общей директивой
Проверка количества правил в файле robots.txtПравил должно быть не больше 2048, но обычно количество правил значительно меньше (в 10-20 раз).
Проверка размера файла robots.txtВесить должен не больше 500 кб, но я никогда не видел таких размеров у этого файла.
Проверка указания директивы SitemapЭта директива должна содержать полный путь (включая протокол) к файлу sitemap.xml.
Проверка кода ответа сервера для файла robots.txtКод ответа, при открытии site.ru/robots.txt, должен быть 200.
Проверка количества директив User-agent:*, прописанных в файлеДопускается только одно правило такого типа.
Проверка длины правилНи одно правило не должно превышать длину в 1024 символа.
Проверка отсутствия запрета на индексацию CSS и JSФайлы CSS и JS не должны быть закрыты от индексации.

Директивы Robots.txt

Правильный файл robots.txt должен содержать примерно следующие директивы:
User-agent — директива, отвечающая за то, для какого бота написаны дальнейшие правила.
Disallow — директива, запрещающая выбранному выше боту посещать указанный каталог или страницу.
Allow — директива, разрешающая боту посещать указанный каталог или страницу несмотря на Disallow.
Sitemap — директива, значением на которую должна быть ссылка на sitemap.xml.

Все доступные директивы и правила оформления в инструкции от Яндекса.

Логика Allow и Disallow

Как сочетаются противоположные по значению директивы Allow и Disallow?
Allow существует именно для того, чтобы разрешить к посещению что-нибудь из того, что запрещено в Disallow.
Например, можно запретить для индексации весь каталог «/wp-admin/»:
Disallow: /wp-admin/
Но при этом разрешить индексацию изображений по адресу «/wp-admin/uploads/»
Allow: */uploads
Таким образом все файлы и каталоги кроме «uploads» будут закрыты для посещения роботами.

Директива Host

Host — устаревшая директива Яндекса, в прошлом используемая для обозначения главного зеркала. Сейчас не работает.
Поэтому несколько связанных с этой директивой пунктов сейчас потеряли актуальность.

Альтернативы: мета-тег Robots

Если по какой-то причине у Вас нет доступа к файлу robots.txt или Вам нужна более точная настройка индексации данных на странице, то можно воспользоваться метатегом, который добавляется в раздел Head.
Этот метатег имеет аналогичное название Robots. Он может использовать следующие директивы:

  • all;
  • noindex;
  • nofollow;
  • none;
  • noimageindex;
  • noarchive;
  • nocache;
  • nosnippet;
  • notranslate;
  • unavailable_after: [RFC-850 date/time];
  • noodp;
  • noydir;
  • noyaca;

Описание директив и подробная инструкция о работе мета-тега Robots.

Если вы нашли любую ошибку, опечатку или неточность, пожалуйста, сообщите об этом в комментариях.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *