Что такое robots.txt и как правильно его использовать?
Давайте начнем с краткого определения: robots.txt - текстовый файл, размещенный на сервере, который отвечает за взаимодействие с индексирующими роботами. Основная функция robots.txt заключается в предоставлении или запрете доступа к файлам в папке сайта.
Узнайте о некоторых распространенных конфигурациях robots.txt, о которых я расскажу более подробно ниже:
# Доступ ко всему сайту.
Пользователь-агент: *
Запретить:
# Нет доступа к сайту.
Пользователь-агент: *
Запретить: /
# Исключение одной папки.
Пользователь-агент: *
Запретить: /папка/
# Исключение одной подстраницы.
Пользователь-агент: *
Запретить: /file.html
Почему мы должны знать, что такое robots.txt?
- Незнание того, что такое robots.txt, и неправильное его использование может негативно сказаться на рейтинге вашего сайта.
- Файл robots.txt управляет тем, как индексирующие роботы просматривают ваш сайт.
- Robots.txt упоминается в нескольких руководствах, предоставленных самим Google.
- Этот файл и индексирующие роботы являются фундаментальными элементами, которые влияют на работу всех поисковых систем.
Роботы для индексации в Интернете
Первое, что сделает такой робот, посетив ваш сайт, - это заглянет в файл robots.txt. С какой целью? Робот хочет знать, есть ли у него полномочия для доступа к данной странице или файлу. Если файл robots.txt разрешает вход, то он продолжит свою работу. Если нет, то он покинет указанный сайт. В связи с этим, если у вас есть какие-либо инструкции для индексирующих роботов, то robots.txt является подходящим файлом для этого.
Примечание: Есть две важные вещи, которые должен сделать каждый веб-мастер, когда речь идет о файле robots.txt:
- определить, существует ли файл robots.txt вообще
- если он существует, убедитесь, что он не вредит позиции сайта в поисковых системах
Как проверить, есть ли на сайте файл robots.txt?
Robots.txt можно проверить из любого веб-браузера. Этот файл должен быть помещен в корневую папку каждого сайта, чтобы мы могли определить, есть ли на сайте robots.txt. Просто добавьте 'robots.txt' в конец имени вашего домена, как показано в примере ниже:
www.domena.pl/robots.txt
Если файл существует или пуст, браузер отобразит его содержимое. Если он не существует, вы получите ошибку 404.
Нужен ли нам файл robots.txt?
Если вы уже знаете, что такое robots.txt, возможно, он вообще не нужен на вашем сайте.
Причины, по которым файл robots.txt должен быть на вашем сайте:
- У вас есть данные, которыми вы не хотите делиться с поисковыми системами.
- Вы используете платные ссылки или рекламу, требующую особых инструкций для краулеров.
- Вы хотите, чтобы на ваш сайт заходили только авторитетные роботы, такие как Googlebot.
- Вы создаете сайт и изменяете его "вживую", в связи с этим вы не хотите, чтобы роботы индексировали незаконченную версию.
- Robots.txt поможет вам следовать рекомендациям, которые публикует Google.
Причины, по которым файл robots.txt не обязательно должен быть на вашем сайте:
- Не имея файла robots.txt, вы устраняете потенциальные ошибки, которые могут негативно повлиять на позиции вашего сайта в поисковых системах.
- У вас нет файлов, которые вы хотите скрыть от поисковой системы.
В связи с этим, если у вас нет файла robots.txt, поисковые системы имеют полный доступ к вашему сайту. Это, конечно же, нормальное и обычное явление, поэтому беспокоиться не о чем.
Как создать файл robots.txt?
Создание файла robots.txt - это детская забава.
Такой файл является простым текстовым файлом, а значит, вы можете использовать самый обычный блокнот в вашей системе или любой другой текстовый редактор. Поэтому вы можете посмотреть на это так: я не создаю файл robots.txt, я просто пишу простую заметку.
Инструкции Robots.txt и их важность
Теперь, когда вы знаете, что такое robots.txt, вам нужно научиться правильно его использовать.
User-agent
User-agent:
#lub
User-agent: *
#lub
User-agent: Googlebot
Описание:
- Синтаксис user-agent определяет направление, по которому движутся индексирующие роботы - если это необходимо, конечно. Это можно сделать двумя способами. Если вы хотите сообщить обо всех роботах, добавьте "*" (звездочку).
- Пользователь-агент: * - такой способ написания говорит об этом: "Каждый робот должен следовать в этом направлении". Если вы хотите сообщить о чем-то конкретному роботу, например, Googlebot, то обозначение выглядит следующим образом
- User-agent: Googlebot - эта строка говорит: "Эти инструкции применимы только к Googlebot".
Disallow
Инструкция 'Disallow' служит для того, чтобы запретить роботам заходить в заданные папки или файлы. Это означает, что если вы не хотите, чтобы, например, Google индексировал изображения на вашем сайте, вы помещаете их все в одну папку и исключаете ее.
Как вы это делаете? Допустим, вы уже переместили все свои фотографии в папку под названием "pics". Теперь вам нужно сказать роботам не посещать эту папку для индексации.
Вот что должен содержать файл robots.txt в данной ситуации:
Пользователь-агент: *
Запретить: /photos
Приведенные выше две строки текста в файле robots.txt будут держать роботов подальше от папки photos.
Примечание: Если вы забыли знак "/" после инструкции Disallow, как здесь....
Пользователь-агент: *
Запретить:
...тогда индексирующий робот зайдет на ваш сайт, посмотрит на первую строку, затем прочитает вторую (т.е. "Disallow:"). Что произойдет? После этого робот будет чувствовать себя как рыба в воде, потому что вы запретили ему... ничего. Поэтому он начнет индексировать все страницы и файлы.
Allow
Эту специфическую инструкцию понимают только несколько индексирующих роботов, одним из которых является, например, Googlebot.
Разрешить:
Инструкция 'Allow' позволяет роботу определить, может ли он просматривать файл в папке, которая заблокирована командой 'Disallow'. Чтобы проиллюстрировать это, давайте рассмотрим предыдущий пример.
Пользователь-агент: *
Запретить: /photos
Мы сохранили все фотографии в одну папку с именем "fotki" и, благодаря функции "Disallow: /photos" мы заблокировали полный доступ к его содержимому. Однако через некоторое время мы пришли к выводу, что хотим сделать доступной для поисковой системы только одну фотографию, которая находится именно в папке "photos". Положение "Разрешить" позволяет нам указать Googlebot, что, несмотря на то, что мы заблокировали доступ к папке, он все равно может искать в ней и индексировать фотографию с именем, например, "bike.jpg". В связи с этим нам необходимо создать для него инструкцию, которая будет выглядеть следующим образом:
Пользователь-агент: *
Запретить: /photos
Разрешить: /photos/bike.jpg
Такие инструкции сообщают Googlebot, что он может найти файл "bicycle.jpg" в исключенной папке "photos".
Как определить, какие сайты нужно блокировать?
Если мы уже знаем, как правильно использовать robots.txt, мы, вероятно, хотим использовать его для чего-то. В связи с этим, какие типы страниц следует исключить из индексации?
- Страницы, на которых отображаются результаты поиска.
- Страницы, которые генерируются автоматически.
- Сайты с низким рейтингом также получают неизбежный контент, поэтому их лучше просто исключить.
- Страницы, где любая информация генерируется из партнерских баз данных или любая информация, которая генерируется не на вашем сайте.
Что такое robots.txt и как его использовать? - резюме
Не забудьте загрузить файл robots.txt в корневой каталог (если это необходимо, конечно). Также необходимо убедиться, что он правильно настроен. Вы можете проверить правильность файла robots.txt в тестере Google Search Console. Инструкции о том, как это сделать, можно найти по этой ссылке.