Robots.txt: Что это?

Robots.txt: для чего нужен этот файл

Robots.txt или по-другому «индексный файл» является, по сути, текстом в кодировке UTF-8 (в других вариациях считка будет неправильной), он дает роботам поисковых систем «наводку», что следует, в первую очередь, сканировать на сайте. Файл работает для FTP, http, https протоколов. Все, что указано в robots.txt действует только там (порт, протокол, хост), где он размещен.

Robots.txt помещают в корень и после публикации должен быть доступен по такому адресу: https: //site.com.ru/robots.txt.

В иных местах/файлах нужно прописывать ВОМ (Byte Order Mark), этот юникод необходимо для указания очередности байтов при считывании данных. U+FEFF - его символ-код.

Вес Robots.txt должен составлять не более 500 Кб. Такие ограничения введены Google.

Роботы поисковиков, когда обрабатывают данные robots.txt, получают одну из 3-х инструкций по доступу:

«Частичный» – робот может отсканировать только отдельные элементы и страницы сайта
«Полный» – роботу открыт доступ ко всему содержимому сайта
«Запрет» – роботу полностью закрыт доступ к сканированию.

Вот варианты ответов при сканировании, которые получат поисковые роботы:

2xx - успешное сканирование;
3xx - переадресация робота поисковика вплоть до получения иного ответа. Пять неудачных попыток и появляется 404 - ошибка;
4xx - сканируется весь сайт со всем содержимым – так считает робот;
5xx - такое ответ говорит о полном запрете сканирования и позиционируется, как ошибка сервера (временная). Поисковый робот будут возвращаться к этому файлу, пока ответ не будет другим. В случае, когда страница дает ответ «5хх» вместе ошибки 404, то робот обработает ее вместе с этим кодом.

Данных о том, как robots.txt обрабатывает файлы, которые недоступны из-за того, что у сервера проблемы подключения к сети, пока не существует.

Robots.txt: Для чего нужен

Есть ситуации и страницы сайтов, которые поисковым роботам не нужно видеть и посещать:

Админ-страницы;
Личная информация пользователей;
Результаты поиска;
Зеркала (сайтов).

Robots.txt работает в качестве фильтра, который отводит робота-поисковика от файла, который не надо видеть всем. Без индексного сайта эта информация (конфиденциальная) может попасть в выдачу поисковой системы. Однако тут есть небольшой, но принципиальный момент.

Важно! robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.

Robots.txt: Алгоритм написания

Robots.txt пишется в любом редакторе для текстов. Важно соблюсти правила. User-agent и Disallow – основные, остальные (их немало) - второстепенные.

User-agent – гид для поисковых роботов, которых насчитывается свыше 300, на что нужно обратить внимание в robots.txt. Его часто пишут только для считки главным роботом поисковиком.

Главный для Google - Googlebot.

Специализированые Google-robots:

Для сервиса Google-AdSense - Mediapartners-Google;
Для оценки качества страниц (целевых)- AdsBot-Google;
Для изображений - Googlebot-Image;
Для видеоряда - Googlebot-Video;
Мобильная версия - Googlebot-Mobile.

Disallow - рекомендует роботам, что нужно сканнировать на сайте. С его помощью, можно либо полностью открыть сайт для скнирования либо полностью запретить.

Важно! Это правила обычно используется, когда сайт в доработке и не нужно, чтобы его выдавал поисковик. Disallow «отключают», сразу после окончания работы на сайте, когда он готов к посещению пользователями. Вебмастера это частенько забывают сделать.

Allow - еще одно разрешительное правило. Прописывается, когда роботов-поисковиков нужно направить на определенные страницы (/catalog), а остальное содержимое для них осталось закрытым.

Disallow и Allow применяются последовательно и отсортировываются в зависимости от длины (префикса) URL (от меньшего к большему). Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.

Sitemap - сообщает роботам-поисковикам, что то, что нужно проиндексировать расположено по adress: https: //site.ru/sitemap.xml. Проводя регулярный «обход» робот-поисковик,усмотрев изменения в данном файле тут же изменит информацию о нем в базе данных. Тут принципиально важно грамотно написать файл с этим правлом.

Crawl-delay - (параментр) секундомер, посредством которого задается временной промежуток, по завершению которого начнет загружаться сайт (страницы).

Важно! Это правило для слабых серверов и актуально для всех поисковиков, кроме Google.

Clean-param – помогает избегать дублирования контента на сайте (он может находиться на адресах (со знаком «? »). Эти адреса проявляются при различных id-сессиях, сортировках и т.п.

«/, *, $, #» - основные символы robots.txt

При создании (написании) robots.txt применяется специальный набор символов

«/» - слэш. С его помощью вебматер показывает, что файл закрыт для роботов. Если такой символ в единственном числе прописан в Disallow это означает, что запрет наложен на сканирование всего сайта. мы запрещаем сканировать весь сайт. Два знака слэш запрещают скан отдельной категории.

«*» - звездочка указывает на возможность прописать символы в любой последовательности в файле. Ее ставят после каждой инструкции.

«$» - знак доллара. Это ограничитель для звездочки.

«#» - решетка. Применяется, когда вебмастер хочет оставить комментарий, который не нужно читать широкому пользователю и робот его пропустить.

Проверка robots.txt

По завершению написания robots.txt нужно проверить его правильность. Это делается через инструмент для вебмастеров в Google. Нужно перейти по ссылке и затем в указанную форму ввести исходный код файла и указать сайт, который нужно проверить. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.

Ошибки, которых нужно избегать robots.txt

Вот ошибки, которые допускаются при заполнении robots.txt чаще всего из-за спешки или невнимательности.

путанные перепутанные правила/инструкции;
попадание в одну инструкцию Disallow сразу нескольких записей директорий/папок;
ошибочное написание самого индексного файла. Допустимо лишь прописными буквами robots.txt. Использование заглавных в любом месте так Robots.txt или так ROBOTS.TXT – ЗАПРЕЩЕНО!
запрещено добавлять в robots.txt страницы, которых там не должно быть;
User-agent всегда нужно заполнять. Оставлять его пустым нельзя;
лишние символы приводят к ошибкам в сканировании поисковыми роботами.

Случаи нестандартного использования robots.txt

Индексный файл, помимо главной задачи, может стать площадкой для поиска новых сотрудников (в первую очередь, SEO-специалистов и креатива. Вплоть до рекламного блока.

Итог:

Robots.txt помимо главной функции по определению инструкций для роботов поисковиков, позволяет ресурсу искать новых сотрудников, рекламировать свою компанию, экспериментировать и постоянно совершенствоваться. Главное, не делать ошибок.