Is robots.txt mandatory or just advisory?

robots.txt is entirely advisory. Well-behaved crawlers like Googlebot, Bingbot, and most legitimate bots respect it, but there is no technical enforcement. Malicious bots, scrapers, and some AI crawlers may ignore it completely. For sensitive content, use server-side access controls (authentication, IP blocking) rather than relying solely on robots.txt.

How do I test my robots.txt file?

Google Search Console provides a robots.txt tester that shows whether specific URLs are blocked or allowed. You can also use online validators that parse your robots.txt and simulate crawler behavior. Test by checking if critical pages are accessible and non-essential pages are blocked. Always verify after deploying changes.

Does Google respect Crawl-delay in robots.txt?

No, Google does not support the Crawl-delay directive. Instead, Google uses its own algorithms to determine optimal crawl rate based on server response times. To control Google's crawl rate, use the Crawl Rate settings in Google Search Console. Bing does respect Crawl-delay, so include it if Bing traffic matters to you.

Gerador robots.txt: Controlar crawling de mecanismos de busca

Neste artigo

O que e robots.txt?

robots.txt e um arquivo de texto simples colocado na raiz de um site que informa aos rastreadores quais paginas devem ou nao acessar. Segue o Protocolo de Exclusao de Robos, um padrao desde 1994.

Quando um crawler visita seu site, primeiro verifica o arquivo robots.txt. O arquivo contem diretivas especificando quais agentes podem acessar quais caminhos. robots.txt e consultivo — crawlers bem-intencionados o respeitam, mas bots maliciosos podem ignora-lo.

Sintaxe do robots.txt

O arquivo usa uma sintaxe simples baseada em diretivas:

User-agent — especifica qual crawler e afetado pelas regras
Disallow — bloqueia acesso a um caminho especifico
Allow — permite explicitamente acesso a um caminho
Sitemap — especifica a URL do seu sitemap XML
Crawl-delay — sugere um atraso entre solicitacoes sucessivas

Curingas sao suportados: * corresponde a qualquer sequencia e $ ao final de uma URL.

Padroes robots.txt comuns

As configuracoes mais uteis:

Permitir tudo — uma diretiva Disallow vazia permite crawling completo
Bloquear tudo — Disallow: / bloqueia todos os crawlers
Bloquear crawlers IA — direcionar bots IA com User-agent: GPTBot
Permitir apenas Google — combinar blocos para Googlebot e outros agentes
Proteger caminhos admin — Disallow: /admin/, /api/

Experimente gratuitamente — sem cadastro

Gerar robots.txt →

Casos de uso comuns

Um robots.txt bem configurado serve varios propositos:

Otimizacao SEO — evitar crawling de conteudo duplicado
Bloqueio de scrapers — desencorajar bots de scraping e treinamento IA
Protecao de ambientes staging — bloquear crawlers em servidores de teste
Gestao do orcamento de crawl — bloquear paginas de baixo valor

robots.txt e SEO

robots.txt impacta diretamente como mecanismos de busca descobrem seu conteudo:

Bloquear nao significa desindexar — use a meta tag noindex
Sempre inclua seu sitemap — adicione uma diretiva Sitemap
Nao bloqueie arquivos CSS ou JavaScript — mecanismos precisam deles para renderizar
Erros comuns — bloquear diretorios inteiros acidentalmente pode prejudicar seu SEO

Perguntas frequentes

robots.txt e obrigatorio ou apenas consultivo?

robots.txt e completamente consultivo. Para conteudo sensivel, use controles de acesso do servidor.

Como testar meu arquivo robots.txt?

Google Search Console tem um testador de robots.txt. Tambem pode usar validadores online.

O Google respeita Crawl-delay no robots.txt?

Nao, o Google nao suporta Crawl-delay. Use as configuracoes de velocidade de crawl no Google Search Console. O Bing respeita Crawl-delay.

Ferramentas relacionadas

Como gerar meta tags perfeitas para SEOCrie meta tags otimizadas com pré-visualização SERP e redes sociais.Ler artigo → Parser de URL: estrutura e componentes de URLAnalise URLs em protocolo, host, caminho, parametros e fragmentos. Aprenda sobre estrutura URL e dicas de depuracao.Ler artigo → Validação de URL: Como verificar se links são válidos e segurosLinks quebrados e URLs malformadas prejudicam a experiência do usuário e o SEO.Ler artigo →

Voltar ao Blog

Gerador robots.txt: Controlar o crawling de mecanismos de busca