Skip to main content
CheckTown
Generadores

Generador robots.txt: Controlar el rastreo de buscadores de su sitio

Publicado 6 min de lectura
En este artículo

Que es robots.txt?

robots.txt es un archivo de texto plano colocado en la raiz de un sitio web que indica a los rastreadores que paginas deben o no acceder. Sigue el Protocolo de Exclusion de Robots, un estandar desde 1994.

Cuando un rastreador visita su sitio, primero verifica el archivo robots.txt. El archivo contiene directivas que especifican que agentes pueden acceder a que rutas. robots.txt es consultivo — los rastreadores bien intencionados lo respetan, pero los bots maliciosos pueden ignorarlo.

Sintaxis de robots.txt

El archivo utiliza una sintaxis simple basada en directivas:

  • User-agent — especifica que rastreador afectan las reglas
  • Disallow — bloquea el acceso a una ruta especifica
  • Allow — permite explicitamente el acceso a una ruta
  • Sitemap — especifica la URL de su mapa del sitio XML
  • Crawl-delay — sugiere un retraso entre solicitudes sucesivas

Los comodines son compatibles: * coincide con cualquier secuencia y $ con el final de una URL.

Patrones robots.txt comunes

Las configuraciones mas utiles:

  • Permitir todo — una directiva Disallow vacia permite el rastreo completo
  • Bloquear todo — Disallow: / bloquea todos los rastreadores
  • Bloquear rastreadores IA — apuntar a bots IA con User-agent: GPTBot
  • Permitir solo Google — combinar bloques para Googlebot y otros agentes
  • Proteger rutas admin — Disallow: /admin/, /api/

Pruébalo gratis — sin registro

Generar robots.txt →

Casos de uso comunes

Un robots.txt bien configurado cumple varias funciones:

  • Optimizacion SEO — evitar el rastreo de contenido duplicado
  • Bloqueo de scrapers — disuadir bots de scraping y entrenamiento IA
  • Proteccion de entornos de staging — bloquear rastreadores en servidores de prueba
  • Gestion del presupuesto de rastreo — bloquear paginas de bajo valor

robots.txt y SEO

robots.txt impacta directamente en como los motores de busqueda descubren su contenido:

  • Bloquear no significa desindexar — use la meta tag noindex
  • Siempre incluya su sitemap — agregue una directiva Sitemap
  • No bloquee archivos CSS o JavaScript — los motores los necesitan para renderizar
  • Errores comunes — bloquear directorios enteros accidentalmente puede danar su SEO

Preguntas frecuentes

Es robots.txt obligatorio o solo consultivo?

robots.txt es completamente consultivo. Para contenido sensible, use controles de acceso del servidor.

Como pruebo mi archivo robots.txt?

Google Search Console tiene un probador de robots.txt. Tambien puede usar validadores en linea.

Google respeta Crawl-delay en robots.txt?

No, Google no soporta Crawl-delay. Use las configuraciones de velocidad de rastreo en Google Search Console. Bing si respeta Crawl-delay.

Herramientas relacionadas