Что такое файл robots.txt? (И когда его использовать)

2 апреля 2022 г.

Поставщики поисковых систем и другие онлайн-пользователи часто используют роботов или ботов для выполнения автоматизированных задач, таких как индексирование, которые могут помочь сайтам появляться, когда люди выполняют поиск по определенным ключевым словам. Владельцы веб-сайтов часто создают файл robots.txt, который может помочь им автоматически реагировать и направлять этих ботов к определенной информации. Изучение этого документа и способов его использования может помочь обеспечить безопасность и доступность вашего сайта. В этой статье мы обсудим, что такое документ robots.txt и как его использовать, а также предоставим полезную информацию, например, как вы можете использовать эти файлы с советами.

Что такое robots.txt?

Файл robots.txt или стандарт исключения роботов — это файл, который помогает пользователям находить и индексировать веб-сайты или элементы на странице. Поскольку поисковые системы, а иногда и вредоносные программы выполняют сканирование или индексацию отдельных страниц, они помогают управлять запросами. Каждый раз, когда поисковая система собирает данные с вашего сайта, она запрашивает определенную информацию. Этот файл предписывает обходу идентифицировать и собирать конкретную информацию, которая может ему понадобиться. У каждого есть определенный URL-адрес, размещенный на веб-сайте. Обычно на эту ссылку не перенаправляют, поэтому обычные пользователи часто этого не замечают. Некоторые из синтаксиса, используемые в этом файле для управления роботами, включают:

  • Пользовательский агент: Пользовательские агенты — это поисковые системы или другое программное обеспечение, которое развертывает роботов для сканирования. Текстовый файл может включать конкретные ссылки на пользовательские агенты с уникальными инструкциями для каждого из них.

  • Разрешить: Разрешить — это команда, которая предоставляет роботам доступ к дополнительным страницам и подкаталогам. Это может быть возможно только с некоторыми ботами.

  • Disallow: Disallow — это команда, которую вы можете включить в текстовый файл, чтобы запретить роботу доступ к определенному URL-адресу.

  • Задержка сканирования. Задержка сканирования — это время, обычно в секундах, в течение которого бот может ожидать загрузки и сканирования контента на определенном сайте.

  • Карта сайта: карта сайта — это поле в текстовом файле, которое предоставляет карту каталога XML-карт сайта веб-сайта.

Когда вы можете использовать robots.txt

Несколько раз вы можете использовать файл robots.txt:

Поддержание работоспособности сайта

Если вы ожидаете большого трафика веб-сайта на сервере из-за постоянного сканирования, создание этого файла может помочь решить любые проблемы с производительностью. Эти файлы могут помочь вам направить ботов к определенной информации и частям вашего сайта, а не загружать и использовать каждый сайт. Вы можете ограничить, какие сайты сканирует бот, например избыточные или неважные сайты, чтобы сканирование просматривало только важные сайты.

Защита файлов

Вы можете использовать этот тип файлов для защиты определенных файлов, таких как изображения и видеофайлы. Файл может предотвратить доступ нежелательных роботов к определенным медиафайлам или страницам, хотя другие сайты могут по-прежнему ссылаться на эти объекты. Ваши медиафайлы не будут отображаться в поисковых системах, которые сканируют ваш сайт. Вы также можете запретить роботам доступ к файлам ресурсов, таким как файлы стилей и скрипты. Это означает, что сайт может отображаться в поисковой системе без этих дополнительных объектов.

Как использовать robots.txt

Вот несколько шагов, которые вы можете выполнить, чтобы использовать файл robots.txt:

1. Создайте новый файл

Чтобы использовать файл robots.txt, вы можете создать его в любом текстовом редакторе. При его создании вы можете добавить определенную информацию, такую ​​как пользовательские агенты и карту сайта, чтобы направлять любых ботов. Поскольку на каждом сайте может быть только один из этих файлов, вы можете сохранить свою основную версию в виде файла .txt, когда закончите, и назвать его robots.txt, чтобы роботы могли распознавать его при сканировании.

2. Добавьте правила

С каждым правилом вы можете классифицировать их по пользовательскому агенту и перечислить их в отдельных строках. Поскольку роботы часто читают сверху вниз, вы можете сначала указать конкретный пользовательский агент, а затем сайты, к которым они могут получить доступ. Например, правила могут выглядеть так:

пользовательский агент: searchbotcrawler

разрешать: https://www.botstxttest.com

disallow: /home.jpg относится к https://www.botstxttest.com/home.jpg

Рассмотрите возможность просмотра регистра предложений, поскольку роботы часто чувствительны к регистру.

3. Загрузите файл

Как только вы определите какие-либо правила, вы можете загрузить файл на сервер вашего сайта. Это работает правильно при размещении на сайте верхнего уровня. Например, это может выглядеть как “https://www.botstxttest.com/robots.txt”. Вы можете сделать это самостоятельно или обратиться в службу поддержки хоста вашего веб-сайта, чтобы загрузить файл, если это необходимо.

4. Проверьте производительность

Разместив файл на своем веб-сайте, подумайте о том, чтобы протестировать его, чтобы убедиться, что он работает. Вы можете сначала открыть URL-адрес в приватном окне браузера. Есть несколько вариантов программного обеспечения для тестирования, которые вы можете использовать в Интернете. Они имитируют функциональность бота и могут показать вам, что сканирование может сделать или вернуть на основе вашего текстового файла.

Советы по эффективному использованию robots.txt

Вот несколько советов, на которые вы можете ссылаться при использовании этих файлов:

Понимание ограничений

Существуют некоторые ограничения файла robots.txt, которые вы можете учитывать. Например, некоторые поисковые системы или роботы могут не прочитать некоторые из предоставленных вами указаний. Это может означать, что эти механизмы или другие поисковые роботы могут получить доступ к информации, которую вы надеялись защитить. Точно так же некоторые поисковые роботы могут по-разному читать синтаксис вашего документа.

Изучите методы блокировки

Поскольку файл robots.txt контролирует только некоторые аспекты безопасности сайта, вы также можете узнать, как блокировать определенные поисковые роботы или сайты. Вы можете добавить тег «noindex» в метатеги вашего сайта, чтобы он не отображался на сайтах поисковых систем. Вы также можете защитить некоторые сайты и дочерние сайты, включив защиту паролем. Поскольку боты обычно не могут получить доступ к этим паролям, они, скорее всего, смогут просканировать сайт.

Проверьте свой файл

Поскольку роботы читают эти текстовые файлы, они реагируют только на точные совпадения. Рассмотрите возможность проверки каждого файла на орфографию и точность. Вы также можете проверить каждую из ссылок, указанных в файле robot.txt, чтобы убедиться, что вы хотите включить именно их. Это может помочь проверить регистр в каждом URL-адресе, чтобы убедиться, что они соответствуют ссылкам на веб-страницы.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *