Що таке robots.txt та як правильно його використовувати?
Давайте почнемо з короткого визначення: robots.txt - текстовий файл, розміщений на сервері, який відповідає за взаємодію з роботами, що індексують. Основна функція robots.txt полягає у наданні або забороні доступу до файлів у папці сайту.
Дізнайтеся про деякі поширені конфігурації robots.txt, про які я розповім детальніше:
# Доступ до всього сайту.
Користувач-агент: *
Заборонити:
# Немає доступу до сайту.
Користувач-агент: *
Заборонити: /
# Виключення однієї папки.
Користувач-агент: *
Заборонити: /папка/
# Виключення однієї підсторінки.
Користувач-агент: *
Заборонити: /file.html
Чому ми повинні знати, що таке robots.txt?
- Незнання того, що таке robots.txt, і неправильне його використання може негативно позначитися на рейтингу вашого сайту.
- Файл robots.txt управляє тим, як індексуючі роботи переглядають ваш сайт.
- Robots.txt згадується в кількох посібниках, наданих самим Google.
- Цей файл та індексуючі роботи є фундаментальними елементами, які впливають на роботу всіх пошукових систем.
Роботи для індексації в Інтернеті
Перше, що зробить такий робот, відвідавши ваш сайт - це загляне у файл robots.txt. З якою метою? Робот хоче знати, чи має він повноваження для доступу до цієї сторінки або файлу. Якщо файл robots.txt дозволяє вхід, він продовжить свою роботу. Якщо ні, він залишить зазначений сайт. У зв'язку з цим, якщо у вас є будь-які інструкції для індексуючих роботів, robots.txt є відповідним файлом для цього.
Примітка: Є дві важливі речі, які повинен зробити кожен веб-майстер, коли йдеться про файл robots.txt:
- визначити, чи існує файл robots.txt взагалі 👟 переконайтеся, що він не шкодить позиції сайту в пошукових системах
Як перевірити, чи є на сайті файл robots.txt?
Robots.txt можна перевірити з будь-якого веб-браузера. Цей файл має бути поміщений у кореневу папку кожного сайту, щоб ми могли визначити, чи є на сайті robots.txt. Просто додайте 'robots.txt' в кінець імені вашого домену, як показано в прикладі нижче: Якщо він не існує, ви отримаєте помилку 404.
Чи потрібний нам файл robots.txt?
Якщо ви вже знаєте, що таке robots.txt, можливо, він взагалі не потрібний на вашому сайті.
Причини, з яких файл robots.txt повинен бути на вашому сайті:
- У вас є дані, якими ви не хочете ділитися з пошуковими системами.
- Ви використовуєте платні посилання або рекламу, яка вимагає особливих інструкцій для краулерів.
- Ви хочете, щоб на ваш сайт заходили лише авторитетні роботи, такі як Googlebot.
- Ви створюєте сайт і змінюєте його "наживо", у зв'язку з цим ви не хочете, щоб роботи індексували незакінчену версію.
- Robots.txt допоможе вам дотримуватися рекомендацій, які публікує Google.
Причини, з яких файл robots.txt не обов'язково повинен бути на вашому сайті:
- Не маючи файлу robots.txt, ви усуваєте потенційні помилки, які можуть негативно вплинути на позиції.
- У вас немає файлів, які ви хочете приховати від пошукової системи.
У зв'язку з цим, якщо у вас немає файлу robots.txt, пошукові системи мають повний доступ до вашого сайту. Це, звичайно ж, нормальне і звичайне явище, тому турбуватися нема про що.
Як створити файл robots.txt?
Створення файлу robots.txt – це дитяча забава.
Такий файл є простим текстовим файлом, а значить, ви можете використовувати звичайнісінький блокнот у вашій системі або будь-який інший текстовий редактор. Тому ви можете подивитися на це так: я не створюю файл robots.txt, я просто пишу просту замітку.
Інструкції Robots.txt та їх важливість
Тепер, коли ви знаєте, що таке robots.txt, вам потрібно навчитися правильно його використовувати.
User-agent
User-agent:
#lub
User-agent: *
User-agent: GooglebotОпис :
- Синтаксис user-agent визначає напрямок, яким рухаються індексуючі роботи - якщо це необхідно, звичайно. Це можна зробити двома способами. Якщо ви бажаєте повідомити про всі роботи, додайте "*" (зірочку).
- Користувач-агент: * - такий спосіб написання говорить про це: "Кожен робот повинен слідувати в цьому напрямі". Якщо ви хочете повідомити про щось конкретну роботу, наприклад, Googlebot, то позначення виглядає наступним чином.
Disallow
Інструкція 'Disallow' служить для того, щоб заборонити роботам заходити в задані папки або файли. Це означає, що якщо ви не хочете, щоб, наприклад, Google індексував зображення на вашому сайті, ви поміщаєте їх у одну папку і виключаєте її.
Як ви це робите? Допустимо, ви вже перемістили всі свої фотографії до папки під назвою "pics". Тепер вам потрібно сказати роботам не відвідувати цю папку для індексації.
Ось що повинен містити файл robots.txt в даній ситуації:
Користувач-агент: *
Заборонити: /photos
t тримати роботів подалі від папки photos.Примітка: Якщо ви забули знак "/" після інструкції Disallow, як тут....
Користувач-агент: *
Заборонити: на ваш сайт подивиться на перший рядок, потім прочитає другий (тобто "Disallow:"). Що станеться? Після цього робот почуватиметься як риба у воді, тому що ви заборонили йому... нічого. Тому він почне індексувати всі сторінки та файли.
Allow
Цю специфічну інструкцію розуміють лише кілька індексуючих роботів, одним з яких є, наприклад, Googlebot.
Дозволити:
Інструкція 'Allow' дозволяє роботу визначити, чи може він переглядати файл у папці, яка заблокована командою 'Disallow'. Щоб проілюструвати це, розгляньмо попередній приклад.
Користувач-агент: *
Заборонити: /photos
Ми зберегли всі фотографії в одну папку з ім'ям "fotki" і, завдяки функції "som" . Однак через деякий час ми дійшли висновку, що хочемо зробити доступною для пошукової системи лише одну фотографію, яка знаходиться саме у папці "photos". Положення "Дозволити" дозволяє нам вказати Googlebot, що, незважаючи на те, що ми заблокували доступ до папки, він все одно може шукати в ній та індексувати фотографію з ім'ям, наприклад "bike.jpg". У зв'язку з цим нам необхідно створити для нього інструкцію, яка буде виглядати наступним чином:
Користувач-агент: *
Заборонити: Такі інструкції повідомляють Googlebot, що може знайти файл "bicycle.jpg" у виключеній папці "photos".
Як визначити, які сайти потрібно блокувати?
Якщо ми вже знаємо, як правильно використовувати robots.txt, ми, ймовірно, хочемо використовувати його для чогось. У зв'язку з цим які типи сторінок слід виключити з індексації?
- Сторінки, на яких відображаються результати пошуку.
- Сторінки, які генеруються автоматично.
- Сайти з низьким рейтингом також отримують неминучий контент, тому їх краще просто виключити.
- Сторінки, де будь-яка інформація генерується з партнерських баз даних або будь-яка інформація, яка генерується не на вашому сайті.
Що таке robots.txt і як його використовувати? - резюме
Не забудьте завантажити файл robots.txt в кореневий каталог (якщо це необхідно, звичайно). Також необхідно переконатись, що він правильно налаштований. Ви можете перевірити правильність файлу robots.txt у тестері Google Search Console. Інструкції про те, як це зробити, можна знайти за цим посиланням.