Коротко про robots.txt

Коротко про robots.txt

robots.txt — це текстовий файл, який вебмайстри використовують для управління тим, як пошукові роботи (боти) індексують їхні вебсайти. Цей файл розміщується у кореневому каталозі вебсайту і містить інструкції для ботів щодо того, які частини сайту їм дозволено індексувати, а які ні.

robots.txt складається з кількох блоків, кожен з яких починається з вказівки для бота (User-agent) і містить правила (Allow, Disallow) для цього бота.

Наприклад:
User-agent: *
Disallow: /admin/
Disallow: /private/

У цьому прикладі User-agent: * означає, що правила застосовуються до всіх ботів. Директиви Disallow: /admin/ та Disallow: /private/ забороняють ботам індексувати каталоги /admin/ та /private/.

Основні директиви robots.txt:

User-agent: Визначає, до якого бота застосовуються наступні правила. Символ * означає, що правила стосуються всіх ботів.

Disallow: Вказує шляхи, які заборонено індексувати.

Allow: Вказує шляхи, які дозволено індексувати (це корисно, коли потрібно дозволити доступ до конкретного файлу або каталогу в межах забороненого каталогу).

Sitemap: Вказує на розташування файлу XML-карти сайту, що містить список усіх URL-адрес на сайті, які мають бути проіндексовані.


Приклад складнішого файлу robots.txt:
User-agent: Googlebot
Disallow: /private/
Allow: /private/public-file.html

User-agent: Bingbot
Disallow: /not-for-bing/

Sitemap: https://www.example.com/sitemap.xml

У цьому прикладі Googlebot заборонено індексувати каталог /private/, але дозволено індексувати файл /private/public-file.html. Bingbot заборонено індексувати каталог /not-for-bing/. Також зазначено розташування XML-карти сайту.


Файл robots.txt є важливим інструментом для керування індексацією сайту, але не обов'язковим для виконання ботами. Деякі боти можуть ігнорувати цей файл, особливо ті, що належать до категорії шкідливих. Проте великі пошукові системи, такі як Google, Bing і Yahoo, дотримуються вказівок у файлі robots.txt.

Файл robots.txt розміщується в кореневому каталозі вебсайту. Наприклад, для сайту example.com він буде доступний за адресою https://www.example.com/robots.txt.

Файл robots.txt — це простий, але потужний інструмент для управління індексацією вебсайту, що допомагає забезпечити належне представлення вашого сайту в пошукових системах.





2024-06-14





Вибрати мову:
-  руский
-  Українська