Robots.txt — самый популярный способ закрыть страницу сайта от индексации поисковыми системами.
В этой статье мы не будем разбираться для чего это делается, но проясним как.
Правила оформления файла robots.txt
В платном аудите сайта этот файл проверяется по следующим пунктам:
Проверка наличия файла robots.txt | Обычно находится в корне сайта, и если это не так, то его можно создать вручную. Должен открываться по ссылке site.ru/robots.txt |
Проверка файла robots.txt валидатором на наличие ошибок | Свой файл можно проверить на валидность в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt). |
Проверка необходимости указания директивы User-agent для ПС Яндекс/Гугл | У себя я не указываю отдельные директивы для Яндекса и Гугла, но такой функционал есть. |
Проверка указания общей директивы User-agent:* | У меня все правила указаны под общей директивой |
Проверка количества правил в файле robots.txt | Правил должно быть не больше 2048, но обычно количество правил значительно меньше (в 10-20 раз). |
Проверка размера файла robots.txt | Весить должен не больше 500 кб, но я никогда не видел таких размеров у этого файла. |
Проверка указания директивы Sitemap | Эта директива должна содержать полный путь (включая протокол) к файлу sitemap.xml . |
Проверка кода ответа сервера для файла robots.txt | Код ответа, при открытии site.ru/robots.txt , должен быть 200. |
Проверка количества директив User-agent:*, прописанных в файле | Допускается только одно правило такого типа. |
Проверка длины правил | Ни одно правило не должно превышать длину в 1024 символа. |
Проверка отсутствия запрета на индексацию CSS и JS | Файлы CSS и JS не должны быть закрыты от индексации. |
Директивы Robots.txt
Правильный файл robots.txt должен содержать примерно следующие директивы:
User-agent — директива, отвечающая за то, для какого бота написаны дальнейшие правила.
Disallow — директива, запрещающая выбранному выше боту посещать указанный каталог или страницу.
Allow — директива, разрешающая боту посещать указанный каталог или страницу несмотря на Disallow.
Sitemap — директива, значением на которую должна быть ссылка на sitemap.xml.
Все доступные директивы и правила оформления в инструкции от Яндекса.
Логика Allow и Disallow
Как сочетаются противоположные по значению директивы Allow и Disallow?
Allow существует именно для того, чтобы разрешить к посещению что-нибудь из того, что запрещено в Disallow.
Например, можно запретить для индексации весь каталог «/wp-admin/»:
Disallow: /wp-admin/
Но при этом разрешить индексацию изображений по адресу «/wp-admin/uploads/»
Allow: */uploads
Таким образом все файлы и каталоги кроме «uploads» будут закрыты для посещения роботами.
Директива Host
Host — устаревшая директива Яндекса, в прошлом используемая для обозначения главного зеркала. Сейчас не работает.
Поэтому несколько связанных с этой директивой пунктов сейчас потеряли актуальность.
Альтернативы: мета-тег Robots
Если по какой-то причине у Вас нет доступа к файлу robots.txt или Вам нужна более точная настройка индексации данных на странице, то можно воспользоваться метатегом, который добавляется в раздел Head.
Этот метатег имеет аналогичное название Robots. Он может использовать следующие директивы:
- all;
- noindex;
- nofollow;
- none;
- noimageindex;
- noarchive;
- nocache;
- nosnippet;
- notranslate;
- unavailable_after: [RFC-850 date/time];
- noodp;
- noydir;
- noyaca;
Описание директив и подробная инструкция о работе мета-тега Robots.