В этой статье
Что такое robots.txt?
robots.txt — это обычный текстовый файл, размещённый в корне сайта, который сообщает поисковым роботам, какие страницы им разрешено или запрещено посещать. Он следует Протоколу исключения роботов, стандарту с 1994 года.
Когда робот посещает сайт, он сначала проверяет файл robots.txt. Файл содержит директивы, указывающие, какие агенты могут получить доступ к каким путям. robots.txt носит рекомендательный характер — добросовестные роботы его уважают, но вредоносные боты могут игнорировать.
Синтаксис robots.txt
Файл использует простой синтаксис на основе директив:
- User-agent — указывает, какого робота касаются правила
- Disallow — блокирует доступ к определённому пути
- Allow — явно разрешает доступ к пути
- Sitemap — указывает URL XML-карты сайта
- Crawl-delay — предлагает задержку между последовательными запросами
Поддерживаются символы подстановки: * соответствует любой последовательности, а $ — концу URL.
Распространённые шаблоны robots.txt
Наиболее полезные конфигурации:
- Разрешить всё — пустая директива Disallow разрешает полное сканирование
- Заблокировать всё — Disallow: / блокирует всех роботов
- Заблокировать ИИ-роботов — нацелить конкретных ИИ-ботов с User-agent: GPTBot
- Разрешить только Google — комбинировать блоки для Googlebot и других агентов
- Защитить админ-пути — Disallow: /admin/, /api/
Попробуйте бесплатно — без регистрации
Сгенерировать robots.txt →Распространённые варианты использования
Правильно настроенный robots.txt выполняет несколько важных функций:
- SEO-оптимизация — предотвращение сканирования дублированного контента
- Блокировка скраперов — сдерживание ботов для сбора контента и обучения ИИ
- Защита staging-окружений — блокировка всех роботов на тестовых серверах
- Управление бюджетом сканирования — блокировка малоценных страниц
robots.txt и SEO
robots.txt напрямую влияет на то, как поисковые системы обнаруживают ваш контент:
- Блокировка не означает деиндексацию — используйте мета-тег noindex
- Всегда включайте карту сайта — добавьте директиву Sitemap
- Не блокируйте CSS или JavaScript — поисковым системам они нужны для рендеринга
- Типичные ошибки — случайная блокировка целых каталогов может навредить SEO
Часто задаваемые вопросы
robots.txt обязателен или только рекомендателен?
robots.txt полностью рекомендателен. Для конфиденциального контента используйте серверный контроль доступа.
Как проверить файл robots.txt?
Google Search Console предоставляет тестер robots.txt. Также можно использовать онлайн-валидаторы.
Google уважает Crawl-delay в robots.txt?
Нет, Google не поддерживает Crawl-delay. Используйте настройки скорости сканирования в Google Search Console. Bing уважает Crawl-delay.