Robots.txt: Що це?
Robots.txt або по-іншому «індексний файл» є, по суті, текстом у кодуванні UTF-8 (в інших варіаціях рахунок буде неправильним), він дає роботам пошукових систем «наведення», що слід перш за все сканувати на сайті. Файл працює для FTP, http, https протоколів. Все, що вказано в robots.txt, діє тільки там (порт, протокол, хост), де він розміщений.
Robots.txt поміщають у корінь і після публікації має бути доступний за такою адресою: https://site.com.ru/robots.txt.
В інших місцях/файлах необхідно прописувати ВОМ (Byte Order Mark), цей юнікод потрібен для вказівки черговості байтів при зчитуванні даних. U+FEFF – символ коду.
Вага Robots.txt повинна становити трохи більше 500 Кб. Такі обмеження запроваджено Google.
Роботи пошукових систем, коли обробляють дані robots.txt, отримують одну з трьох інструкцій з доступу:
- «Частковий» – робот може відсканувати лише окремі елементи та сторінки сайту
- «Повний» – роботу відкритий доступ до всього вмісту сайту
- "Заборона" – роботу повністю закрито доступ до сканування.
Ось варіанти відповідей під час сканування, які отримають пошукові роботи:
- 2xx – успішне сканування;
- 3xx - переадресація робота пошукача аж до отримання іншої відповіді. П'ять невдалих спроб і з'являється 404 – помилка;
- 4xx - сканується весь сайт із усім вмістом – так вважає робот;
- 5xx - така відповідь говорить про повну заборону сканування та позиціонується як помилка сервера (тимчасова). Пошуковий робот повертатиметься до цього файлу, доки відповідь не буде іншою. Якщо сторінка дає відповідь «5хх» разом помилки 404, то робот обробить її разом із цим кодом.
Даних про те, як robots.txt обробляє файли, які недоступні через те, що сервер має проблеми підключення до мережі, поки не існує.
Robots.txt: Для чого потрібний
Є ситуації та сторінки сайтів, які пошуковим роботам не потрібно бачити та відвідувати:
- Адмін-сторінки;
- Особиста інформація користувачів;
- Результати пошуку;
- Дзеркала (сайтів).
Robots.txt працює як фільтр, який відводить робота-пошуковика від файлу, який не треба бачити всім. Без індексного сайту ця інформація (конфіденційна) може потрапити у видачу пошукової системи. Але тут є маленький, але важливий момент.
Важливо! robots.txt, існує ймовірність, що вона з'явиться у видачі, якщо на неї було знайдено посилання всередині сайту або десь на зовнішньому ресурсі.
Robots.txt: Алгоритм написання
Robots.txt пишеться у будь-якому редакторі для текстів. Важливо дотриматися правил. User-agent і Disallow - основні, інші (їх чимало) - другорядні.
User-agent – гід для пошукових роботів, яких налічується понад 300, на що потрібно звернути увагу на robots.txt. Його часто пишуть тільки для рахування головним роботом пошукачем.
Головний для Google – Googlebot.
Спеціалізовані Google-robots:
- Для сервісу Google-AdSense – Mediapartners-Google;
- Для оцінки якості сторінок (цільових) - AdsBot-Google;
- Для зображень – Googlebot-Image;
- Для відеоряду – Googlebot-Video;
- Мобільна версія – Googlebot-Mobile.
Disallow – рекомендує роботам, що потрібно сканувати на сайті. За його допомогою, можна або повністю відкрити сайт для скінчення або заборонити.
Важливо! Це правила зазвичай використовується, коли сайт у доопрацюванні і не потрібно, щоб його видавав пошуковик. Disallow «відключають» відразу після закінчення роботи на сайті, коли він готовий до відвідування користувачами. Вебмайстри це часто забувають зробити.
Allow – ще одне дозвільне правило. Прописується, коли роботів-пошуковиків потрібно направити на певні сторінки (/catalog), а решта вмісту для них залишилася закритою.
Disallow та Allow застосовуються послідовно та відсортуються залежно від довжини (префіксу) URL (від меншого до більшого). Якщо для сторінки підходить кілька правил, робот вибирає останнє правило у відсортованому списку.
Sitemap - повідомляє роботам-пошуковикам, що те, що потрібно проіндексувати, розташоване по adress: https://site.ru/sitemap.xml. Проводячи регулярний «обхід» робот-пошуковик, побачивши зміни в даному файлі відразу змінить інформацію про нього в базі даних. Тут важливо грамотно написати файл із цим правлом.
Crawl-delay - (параментр) секундомір, за допомогою якого задається часовий проміжок, після завершення якого почне завантажуватися сайт (сторінки).
Важливо! Це правило для слабких серверів і актуальне для всіх пошукових систем, крім Google.
Clean-param – допомагає уникати дублювання контенту на сайті (він може перебувати на адресах (зі знаком «?»). Ці адреси виявляються при різних id-сесіях, сортуваннях і т.п.
"/, *, $, #" - основні символи robots.txt
Під час створення (написання) robots.txt застосовується спеціальний набір символів
"/" - слеш. За його допомогою вебматер показує, що файл закрито для роботи. Якщо такий символ в однині прописаний у Disallow це означає, що заборона накладена на сканування всього сайту. ми забороняємо сканувати весь сайт. Два знаки слеш забороняють скан окремої категорії.
"*" - зірочка вказує на можливість прописати символи у будь-якій послідовності у файлі. Її ставлять після кожної інструкції.
"$" - Знак долара. Це обмежувач для зірочки.
«#» - ґрати. Застосовується, коли вебмастер хоче залишити коментар, який не потрібно читати широкому користувачеві та робот його пропустити.
Перевірка robots.txt
Після завершення написання robots.txt необхідно перевірити його правильність. Це робиться через інструмент для веб-майстрів у Google. Потрібно перейти за посиланням, а потім у вказану форму ввести вихідний код файлу та вказати сайт, який потрібно перевірити. Просто введіть вихідний код файлу robots.txt у форму за посиланням та вкажіть сайт, що перевіряється.
Помилки, яких слід уникати robots.txt
Ось помилки, які допускаються при заповненні robots.txt найчастіше через поспіх або неуважність.
- плутані переплутані правила/інструкції;
- попадання в одну інструкцію Disallow відразу кількох записів директорій/папок;
- помилкове написання самого індексного файлу. Допустимо лише великими літерами robots.txt. Використання великих у будь-якому місці так Robots.txt або так ROBOTS.TXT – ЗАБОРОНЕНО!
- заборонено додавати до robots.txt сторінки, яких там не повинно бути;
- User-agent завжди потрібно заповнювати. Залишати його порожнім не можна;
- зайві символи призводять до помилок у скануванні пошуковими роботами.
Випадки нестандартного використання robots.txt
Індексний файл, крім головного завдання, може стати майданчиком для пошуку нових співробітників (насамперед, SEO-фахівців та креативу. Аж до рекламного блоку.
Підсумок:
Robots.txt крім головної функції визначення інструкцій для роботів пошукових систем, дозволяє ресурсу шукати нових співробітників, рекламувати свою компанію, експериментувати і постійно вдосконалюватися. Головне, не робити помилок.