Skip to main content
CheckTown
Geradores

Gerador robots.txt: Controlar o crawling de mecanismos de busca

Publicado 6 min de leitura
Neste artigo

O que e robots.txt?

robots.txt e um arquivo de texto simples colocado na raiz de um site que informa aos rastreadores quais paginas devem ou nao acessar. Segue o Protocolo de Exclusao de Robos, um padrao desde 1994.

Quando um crawler visita seu site, primeiro verifica o arquivo robots.txt. O arquivo contem diretivas especificando quais agentes podem acessar quais caminhos. robots.txt e consultivo — crawlers bem-intencionados o respeitam, mas bots maliciosos podem ignora-lo.

Sintaxe do robots.txt

O arquivo usa uma sintaxe simples baseada em diretivas:

  • User-agent — especifica qual crawler e afetado pelas regras
  • Disallow — bloqueia acesso a um caminho especifico
  • Allow — permite explicitamente acesso a um caminho
  • Sitemap — especifica a URL do seu sitemap XML
  • Crawl-delay — sugere um atraso entre solicitacoes sucessivas

Curingas sao suportados: * corresponde a qualquer sequencia e $ ao final de uma URL.

Padroes robots.txt comuns

As configuracoes mais uteis:

  • Permitir tudo — uma diretiva Disallow vazia permite crawling completo
  • Bloquear tudo — Disallow: / bloqueia todos os crawlers
  • Bloquear crawlers IA — direcionar bots IA com User-agent: GPTBot
  • Permitir apenas Google — combinar blocos para Googlebot e outros agentes
  • Proteger caminhos admin — Disallow: /admin/, /api/

Experimente gratuitamente — sem cadastro

Gerar robots.txt →

Casos de uso comuns

Um robots.txt bem configurado serve varios propositos:

  • Otimizacao SEO — evitar crawling de conteudo duplicado
  • Bloqueio de scrapers — desencorajar bots de scraping e treinamento IA
  • Protecao de ambientes staging — bloquear crawlers em servidores de teste
  • Gestao do orcamento de crawl — bloquear paginas de baixo valor

robots.txt e SEO

robots.txt impacta diretamente como mecanismos de busca descobrem seu conteudo:

  • Bloquear nao significa desindexar — use a meta tag noindex
  • Sempre inclua seu sitemap — adicione uma diretiva Sitemap
  • Nao bloqueie arquivos CSS ou JavaScript — mecanismos precisam deles para renderizar
  • Erros comuns — bloquear diretorios inteiros acidentalmente pode prejudicar seu SEO

Perguntas frequentes

robots.txt e obrigatorio ou apenas consultivo?

robots.txt e completamente consultivo. Para conteudo sensivel, use controles de acesso do servidor.

Como testar meu arquivo robots.txt?

Google Search Console tem um testador de robots.txt. Tambem pode usar validadores online.

O Google respeita Crawl-delay no robots.txt?

Nao, o Google nao suporta Crawl-delay. Use as configuracoes de velocidade de crawl no Google Search Console. O Bing respeita Crawl-delay.

Ferramentas relacionadas