Robots.txt представляет собой текстовый файл, который позволяет веб-сайту дать инструкции при веб-сканирование ботов.
Поисковые системы, такие как Yandex и Google используют веб-сканеры, иногда называемые веб-роботами, архивируют и категоризируют веб-сайты. Поисковые боты настроены на поиск файла robots.txt на сервере, прежде чем он читает любой другой файл с веб-сайта. Они делает это, чтобы увидеть, имеет ли веб-сайт специальные инструкции о том, как сканировать и индексировать их сайт.
Файл robots.txt содержит набор инструкций, которые просят бота игнорировать определенные файлы или каталоги. Это может быть в целях секретности или потому, что владелец сайта считает, что содержание этих файлов и каталогов, не имеет никакого отношения к категоризации веб-сайта в поисковых системах.
Если веб-сайт имеет более одного субдомена, каждый поддомен должен иметь свой собственный файл robots.txt. Важно отметить, что не все боты будут выполнять файл robots.txt. Некоторые вредоносные боты будут тоже читают файл robots.txt, чтобы узнать, какие файлы и каталоги должны быть прочитаны в первую очередь. Кроме того, даже если файл robots.txt предписывает роботам игнорировать конкретные страницы на сайте, эти страницы могут появляться в результатах поиска, если они связаны с другими страницами, которые указаны в файле.