robots.txt — это текстовый файл, используемый вебмастерами для управления тем, как поисковые работы (боты) индексируют их вебсайты. Этот файл размещается в корневом каталоге вебсайта и содержит инструкции для ботов относительно того, какие части сайта им разрешено индексировать, а какие нет.
robots.txt состоит из нескольких блоков, каждый из которых начинается с указания для бота (User-agent) и содержит правила (Allow, Disallow) для этого бота.
Например:
User-agent: *
Disallow: /admin/
Disallow: /private/
В этом примере User-agent: * означает, что правила применяются ко всем ботам. Директивы Disallow: /admin/ и Disallow: /private/ запрещают ботам индексировать каталоги /admin/ и /private/.
Основные директивы robots.txt:
User-agent: Определяет, к какому боту применяются следующие правила. Символ * означает, что правила касаются всех ботов.
Disallow: Указывает пути, которые запрещено индексировать.
Allow: Указывает пути, которые разрешено индексировать (это полезно, когда нужно разрешить доступ к конкретному файлу или каталогу в пределах запрещенного каталога).
Sitemap: Указывает на расположение файла XML-карты сайта, содержащий список всех URL-адресов на сайте, которые должны быть проиндексированы.
Пример более сложного файла robots.txt:User-agent: Googlebot
Disallow: /private/
Allow: /private/public-file.html
User-agent: Bingbot
Disallow: /not-for-bing/
Sitemap: https://www.example.com/sitemap.xml
В этом примере Googlebot запрещено индексировать каталог /private/, но разрешено индексировать файл /private/public-file.html. Bingbot запрещено индексировать каталог /not-for-bing/. Также указано местоположение XML-карты сайта.
Файл robots.txt является важным инструментом для управления индексацией сайта, но не является обязательным для выполнения ботами. Некоторые роботы могут игнорировать этот файл, особенно те, которые относятся к категории вредоносных. Однако большие поисковики, такие как Google, Bing и Yahoo, следуют указаниям в файле robots.txt.
Файл robots.txt размещается в корневом каталоге вебсайта. К примеру, для сайта example.com он будет доступен по адресу https://www.example.com/robots.txt.
Файл robots.txt — это простой, но мощный инструмент для управления индексацией вебсайта, помогающий обеспечить надлежащее представление вашего сайта в поисковиках.
2024-06-14