En este artículo
Que es robots.txt?
robots.txt es un archivo de texto plano colocado en la raiz de un sitio web que indica a los rastreadores que paginas deben o no acceder. Sigue el Protocolo de Exclusion de Robots, un estandar desde 1994.
Cuando un rastreador visita su sitio, primero verifica el archivo robots.txt. El archivo contiene directivas que especifican que agentes pueden acceder a que rutas. robots.txt es consultivo — los rastreadores bien intencionados lo respetan, pero los bots maliciosos pueden ignorarlo.
Sintaxis de robots.txt
El archivo utiliza una sintaxis simple basada en directivas:
- User-agent — especifica que rastreador afectan las reglas
- Disallow — bloquea el acceso a una ruta especifica
- Allow — permite explicitamente el acceso a una ruta
- Sitemap — especifica la URL de su mapa del sitio XML
- Crawl-delay — sugiere un retraso entre solicitudes sucesivas
Los comodines son compatibles: * coincide con cualquier secuencia y $ con el final de una URL.
Patrones robots.txt comunes
Las configuraciones mas utiles:
- Permitir todo — una directiva Disallow vacia permite el rastreo completo
- Bloquear todo — Disallow: / bloquea todos los rastreadores
- Bloquear rastreadores IA — apuntar a bots IA con User-agent: GPTBot
- Permitir solo Google — combinar bloques para Googlebot y otros agentes
- Proteger rutas admin — Disallow: /admin/, /api/
Pruébalo gratis — sin registro
Generar robots.txt →Casos de uso comunes
Un robots.txt bien configurado cumple varias funciones:
- Optimizacion SEO — evitar el rastreo de contenido duplicado
- Bloqueo de scrapers — disuadir bots de scraping y entrenamiento IA
- Proteccion de entornos de staging — bloquear rastreadores en servidores de prueba
- Gestion del presupuesto de rastreo — bloquear paginas de bajo valor
robots.txt y SEO
robots.txt impacta directamente en como los motores de busqueda descubren su contenido:
- Bloquear no significa desindexar — use la meta tag noindex
- Siempre incluya su sitemap — agregue una directiva Sitemap
- No bloquee archivos CSS o JavaScript — los motores los necesitan para renderizar
- Errores comunes — bloquear directorios enteros accidentalmente puede danar su SEO
Preguntas frecuentes
Es robots.txt obligatorio o solo consultivo?
robots.txt es completamente consultivo. Para contenido sensible, use controles de acceso del servidor.
Como pruebo mi archivo robots.txt?
Google Search Console tiene un probador de robots.txt. Tambien puede usar validadores en linea.
Google respeta Crawl-delay en robots.txt?
No, Google no soporta Crawl-delay. Use las configuraciones de velocidad de rastreo en Google Search Console. Bing si respeta Crawl-delay.