robots.txt — индексный файл

Robots.txt — самый популярный способ закрыть страницу сайта от индексации поисковыми системами.
В этой статье мы не будем разбираться для чего это делается, но проясним как.
Картинка robots.txt

Правила оформления файла robots.txt

В платном аудите сайта этот файл проверяется по следующим пунктам:

Проверка наличия файла robots.txt	Обычно находится в корне сайта, и если это не так, то его можно создать вручную. Должен открываться по ссылке `site.ru/robots.txt`
Проверка файла robots.txt валидатором на наличие ошибок	Свой файл можно проверить на валидность в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
Проверка необходимости указания директивы User-agent для ПС Яндекс/Гугл	У себя я не указываю отдельные директивы для Яндекса и Гугла, но такой функционал есть.
Проверка указания общей директивы User-agent:*	У меня все правила указаны под общей директивой
Проверка количества правил в файле robots.txt	Правил должно быть не больше 2048, но обычно количество правил значительно меньше (в 10-20 раз).
Проверка размера файла robots.txt	Весить должен не больше 500 кб, но я никогда не видел таких размеров у этого файла.
Проверка указания директивы Sitemap	Эта директива должна содержать полный путь (включая протокол) к файлу `sitemap.xml`.
Проверка кода ответа сервера для файла robots.txt	Код ответа, при открытии `site.ru/robots.txt`, должен быть 200.
Проверка количества директив User-agent:*, прописанных в файле	Допускается только одно правило такого типа.
Проверка длины правил	Ни одно правило не должно превышать длину в 1024 символа.
Проверка отсутствия запрета на индексацию CSS и JS	Файлы CSS и JS не должны быть закрыты от индексации.

Директивы Robots.txt

Правильный файл robots.txt должен содержать примерно следующие директивы:
User-agent — директива, отвечающая за то, для какого бота написаны дальнейшие правила.
Disallow — директива, запрещающая выбранному выше боту посещать указанный каталог или страницу.
Allow — директива, разрешающая боту посещать указанный каталог или страницу несмотря на Disallow.
Sitemap — директива, значением на которую должна быть ссылка на sitemap.xml.

Все доступные директивы и правила оформления в инструкции от Яндекса.

Логика Allow и Disallow

Как сочетаются противоположные по значению директивы Allow и Disallow?
Allow существует именно для того, чтобы разрешить к посещению что-нибудь из того, что запрещено в Disallow.
Например, можно запретить для индексации весь каталог «/wp-admin/»:
Disallow: /wp-admin/
Но при этом разрешить индексацию изображений по адресу «/wp-admin/uploads/»
Allow: */uploads
Таким образом все файлы и каталоги кроме «uploads» будут закрыты для посещения роботами.

Директива Host

Host — устаревшая директива Яндекса, в прошлом используемая для обозначения главного зеркала. Сейчас не работает.
Поэтому несколько связанных с этой директивой пунктов сейчас потеряли актуальность.

Альтернативы: мета-тег Robots

Если по какой-то причине у Вас нет доступа к файлу robots.txt или Вам нужна более точная настройка индексации данных на странице, то можно воспользоваться метатегом, который добавляется в раздел Head.
Этот метатег имеет аналогичное название Robots. Он может использовать следующие директивы:

all;
noindex;
nofollow;
none;
noimageindex;
noarchive;
nocache;
nosnippet;
notranslate;
unavailable_after: [RFC-850 date/time];
noodp;
noydir;
noyaca;

Описание директив и подробная инструкция о работе мета-тега Robots.

Правила оформления файла robots.txt

Директивы Robots.txt

Логика Allow и Disallow

Директива Host

Альтернативы: мета-тег Robots

Добавить комментарий Отменить ответ