Neste artigo
O que e robots.txt?
robots.txt e um arquivo de texto simples colocado na raiz de um site que informa aos rastreadores quais paginas devem ou nao acessar. Segue o Protocolo de Exclusao de Robos, um padrao desde 1994.
Quando um crawler visita seu site, primeiro verifica o arquivo robots.txt. O arquivo contem diretivas especificando quais agentes podem acessar quais caminhos. robots.txt e consultivo — crawlers bem-intencionados o respeitam, mas bots maliciosos podem ignora-lo.
Sintaxe do robots.txt
O arquivo usa uma sintaxe simples baseada em diretivas:
- User-agent — especifica qual crawler e afetado pelas regras
- Disallow — bloqueia acesso a um caminho especifico
- Allow — permite explicitamente acesso a um caminho
- Sitemap — especifica a URL do seu sitemap XML
- Crawl-delay — sugere um atraso entre solicitacoes sucessivas
Curingas sao suportados: * corresponde a qualquer sequencia e $ ao final de uma URL.
Padroes robots.txt comuns
As configuracoes mais uteis:
- Permitir tudo — uma diretiva Disallow vazia permite crawling completo
- Bloquear tudo — Disallow: / bloqueia todos os crawlers
- Bloquear crawlers IA — direcionar bots IA com User-agent: GPTBot
- Permitir apenas Google — combinar blocos para Googlebot e outros agentes
- Proteger caminhos admin — Disallow: /admin/, /api/
Experimente gratuitamente — sem cadastro
Gerar robots.txt →Casos de uso comuns
Um robots.txt bem configurado serve varios propositos:
- Otimizacao SEO — evitar crawling de conteudo duplicado
- Bloqueio de scrapers — desencorajar bots de scraping e treinamento IA
- Protecao de ambientes staging — bloquear crawlers em servidores de teste
- Gestao do orcamento de crawl — bloquear paginas de baixo valor
robots.txt e SEO
robots.txt impacta diretamente como mecanismos de busca descobrem seu conteudo:
- Bloquear nao significa desindexar — use a meta tag noindex
- Sempre inclua seu sitemap — adicione uma diretiva Sitemap
- Nao bloqueie arquivos CSS ou JavaScript — mecanismos precisam deles para renderizar
- Erros comuns — bloquear diretorios inteiros acidentalmente pode prejudicar seu SEO
Perguntas frequentes
robots.txt e obrigatorio ou apenas consultivo?
robots.txt e completamente consultivo. Para conteudo sensivel, use controles de acesso do servidor.
Como testar meu arquivo robots.txt?
Google Search Console tem um testador de robots.txt. Tambem pode usar validadores online.
O Google respeita Crawl-delay no robots.txt?
Nao, o Google nao suporta Crawl-delay. Use as configuracoes de velocidade de crawl no Google Search Console. O Bing respeita Crawl-delay.