Що таке robots.txt та як правильно його використовувати?
Давайте почнемо з короткого визначення: robots.txt - текстовий файл, розміщений на сервері, який відповідає за взаємодію з роботами, що індексують. Основна функція robots.txt полягає у наданні або забороні доступу до файлів у папці сайту.
Дізнайтеся про деякі поширені конфігурації robots.txt, про які я розповім більш детально нижче:
# Доступ до всього сайту.
Користувач-агент: *
Заборонити:
# Немає доступу до сайту.
Користувач-агент: *
Заборонити: /
# Виняток однієї папки.
Користувач-агент: *
Заборонити: /папка/
# Виняток однієї підсторінки.
Користувач-агент: *
Заборонити: /file.html
Чому ми повинні знати, що таке robots.txt?
- Незнання того, що таке robots.txt, і неправильне його використання може негативно позначитися на рейтингу вашого сайту.
- Файл robots.txt керує тим, як індексують роботи переглядають ваш сайт.
- Robots.txt згадується в кількох посібниках, наданих самим Google.
- Цей файл та індексуючі р роботи є фундаментальними елементами, які впливають на роботу всіх пошукових систем.
Роботи для індексації в Інтернеті Перше, що зробить такий робот, відвідавши ваш сайт, - це загляне у файл robots.txt. З якою метою? Робот хоче знати, чи має він повноваження для доступу до цієї сторінки або файлу. Якщо файл robots.txt дозволяє вхід, він продовжить свою роботу. Якщо ні, він залишить зазначений сайт. У зв'язку з цим, якщо у вас є якісь інструкції для індексуючих роботів, то robots.txt є відповідним файлом для цього.
Примітка: Є дві важливі речі, які має зробити кожен веб-майстер, коли йдеться про файл robots.txt:
- визначити, чи існує файл robots.txt взагалі
- якщо він існує, переконайтеся, що він не шкодить позиції сайту в пошукових системах
Як перевірити, чи є на сайті файл robots.txt?
<Ви можете перевірити robots.txt з будь-якого веб-браузера. Цей файл має бути поміщений у кореневу папку кожного сайту, щоб ми могли визначити, чи є на сайті robots.txt. Просто додайте 'robots.txt' в кінець імені вашого домену, як показано нижче:www. Якщо файл існує або порожній, браузер відобразить його вміст. Якщо він не існує, ви отримаєте помилку 404.
Чи потрібний нам файл robots.txt?
Якщо ви вже знаєте, що таке robots.txt, можливо, він взагалі не потрібний на вашому сайті.
Причини, з яких файл robots.txt повинен бути на вашому сайті:
- У вас є дані, якими ви не хочете ділитися з пошуковими системами.
- Ви використовуєте платні посилання або рекламу, що вимагає особливих інструкцій для краулерів.
- Ви хочете, щоб на ваш сайт заходили лише авторитетні роботи, такі як Googlebot.
- Ви створюєте з айт і змінюєте його "наживо", у зв'язку з цим ви не хочете, щоб роботи індексували незакінчену версію.
- Robots.txt допоможе вам дотримуватися рекомендацій, які публікує Google.
Причини, з яких файл robots.txt не обов'язково повинен бути на вашому сайті:
- Не маючи файлу robots.txt Ви усуваєте потенційні помилки, які можуть негативно вплинути на позиції вашого сайту в пошукових системах.
- У вас немає файлів, які ви хочете приховати від пошукової системи.
У зв'язку з цим, якщо у у вас немає файлу robots.txt, пошукові системи мають повний доступ до вашого сайту. Це, звичайно ж, нормальне і звичайне явище, тому турбуватися нема про що. Як створити файл robots.txt?
Створення файлу robots.txt - це дитяча забава.
<Такий файл є простим текстовим файлом, а значить, ви можете використовувати звичайнісінький блокнот у вашій системі або будь-який інший текстовий редактор. Тому ви можете подивитися на це так: я не створюю файл robots.txt, я просто пишу просту замітку.Інструкції Robots.txt та їх важливість
Тепер, коли ви знаєте, що таке robots.txt, вам потрібно навчитися правильно його використовувати.
User-agent
User-agent:
#lub
User-agent: *
#lub
User-agent: Googlebot
Опис:
- Синтаксис user-agent визначає напрямок, яким рухаються індексуючі роботи - якщо це необхідно, звичайно. Це можна зробити двома способами. Якщо ви бажаєте повідомити про всі роботи, додайте "*" (зірочку).
- Користувач-агент: * - такий спосіб написання говорить про це: "Кожен робот повинен слідувати у цьому напрямі". Якщо ви хочете повідомити про щось конкретну роботу, наприклад Googlebot, то позначення виглядає наступним чином
- User -agent: Googlebot - цей рядок каже: "Ці інструкції можна застосовувати лише до Googlebot".
Disallow
Інструкція 'Disallow' служить для того, щоб заборонити роботам заходити в задані папки або файли. Це означає, що якщо ви не хочете, щоб, наприклад, Google індексував зображення на вашому сайті, ви поміщаєте їх у одну папку і виключаєте її.
Як ви це робите? Допустимо, ви вже перемістили всі свої фотографії до папки під назвою "pics". Тепер вам потрібно сказати роботам не відвідувати цю папку для індексації.
Ось що має містити файл robots.txt у цій ситуації:
Користувач-агент: *
Заборонити: /photos
Наведені вище два рядки тексту у файлі robots.txt будуть тримати роботів подалі від папки photos.
Примітка: Якщо ви забули знак "/" після інструкції Disallow, як тут.... *
Заборонити:
...тоді індексуючий робот зайде на ваш сайт, подивиться на перший рядок, потім прочитає другий (тобто "Disallow:"). Що станеться? Після цього робот почуватиметься як риба у воді, тому що ви заборонили йому... нічого. Тому він почне індексувати всі сторінки та файли.
Allow
Цю специфічну інструкцію розуміють лише кілька індексуючих роботів, одним з яких є, наприклад, Googlebot.
Дозволити:
Інструкція 'Allow' дозволяє роботу визначити, чи він може переглядати файл у папці, яка заблокована командою 'Disallow'. Щоб проілюструвати це, давайте розглянемо попередній приклад.
Користувач-агент: *
Заборонити: /photos
Ми зберегли всі фотографії в одну папку з ім'ям "fotki" і завдяки функції "Disallow: /photos" ми заблокували повний доступ до його вмісту. Однак через деякий час ми дійшли висновку, що хочемо зробити доступною для пошукової системи лише одну фотографію, яка знаходиться саме у папці "photos". Положення "Дозволити" дозволяє нам вказати Googlebot, що, незважаючи на те, що ми заблокували доступ до папки, він все одно може шукати в ній та індексувати фотографію з ім'ям, наприклад "bike.jpg". У зв'язку з цим нам необхідно створити для нього інструкцію, яка буде виглядати так:
Користувач-агент: *
Заборонити: /photos
Дозволити: /photos/bike.jpg
Такі інструкції повідомляють Googlebot, що він може знайти файл "bicycle".jpg" у виключеній папці "photos".
Як визначити, які сайти потрібно блокувати?
Якщо ми вже знаємо, як правильно використовувати robots.txt, ми, ймовірно, хочемо використовувати його для чогось. зв'язки з цим, які типи сторінок слід виключити з індексації? пошуку.
Не забудьте завантажити файл robots.txt у кореневий каталог (якщо це необхідно, звичайно). Також необхідно переконатись, що він правильно налаштований. Ви можете перевірити правильність файлу robots.txt у тестері Google Search Console. Інструкції про те, як це зробити, можна знайти за посиланням.