Dans cet article
Qu'est-ce que robots.txt ?
robots.txt est un fichier texte brut place a la racine d'un site web qui indique aux robots d'exploration quelles pages ou sections ils doivent ou ne doivent pas acceder. Il suit le Protocole d'Exclusion des Robots, un standard utilise depuis 1994 pour communiquer les preferences d'exploration aux moteurs de recherche, robots IA et autres agents automatises.
Lorsqu'un robot visite votre site, il verifie d'abord le fichier robots.txt avant d'explorer les pages. Le fichier contient des directives specifiant quels agents utilisateurs peuvent acceder a quels chemins. Notez que robots.txt est consultatif — les robots bien intentionnes le respectent, mais les robots malveillants peuvent l'ignorer.
Syntaxe de robots.txt
Le fichier robots.txt utilise une syntaxe basee sur des directives simples :
- User-agent — specifie quel robot est concerne par les regles. Utilisez * pour tous les robots ou un nom specifique comme Googlebot ou GPTBot
- Disallow — bloque l'acces a un chemin specifique. Disallow: /admin/ empeche l'exploration du repertoire admin
- Allow — autorise explicitement l'acces a un chemin, utile pour remplacer une regle Disallow plus large
- Sitemap — specifie l'URL de votre sitemap XML pour que les robots puissent decouvrir toutes vos pages
- Crawl-delay — suggere un delai en secondes entre les requetes successives. Google l'ignore ; Bing le respecte
Les jokers sont pris en charge : * correspond a toute sequence de caracteres, et $ correspond a la fin d'une URL.
Modeles robots.txt courants
Voici les configurations robots.txt les plus utiles :
- Tout autoriser — une directive Disallow vide permet l'exploration complete
- Tout bloquer — Disallow: / bloque tous les robots. Utilisez ceci pour les environnements de staging
- Bloquer les robots IA — ciblez les bots IA specifiques avec User-agent: GPTBot suivi de Disallow: /
- Autoriser uniquement Google — combinez des blocs pour Googlebot et les autres agents
- Proteger les chemins admin — Disallow: /admin/, /wp-admin/, /api/ pour garder les repertoires sensibles hors des resultats de recherche
Essayez gratuitement — sans inscription
Generer robots.txt →Cas d'utilisation courants
Un fichier robots.txt bien configure remplit plusieurs fonctions importantes :
- Optimisation SEO — empecher l'exploration du contenu duplique et des pages de pagination
- Blocage des scrapers — dissuader les scrapers de contenu et les bots d'entrainement IA
- Protection des environnements de staging — bloquer tous les robots sur les serveurs de staging
- Gestion du budget de crawl — pour les grands sites, bloquer les pages a faible valeur
robots.txt et SEO
robots.txt a un impact direct sur la facon dont les moteurs de recherche decouvrent et indexent votre contenu :
- Bloquer ne signifie pas desindexer — utilisez la balise meta noindex pour empecher l'indexation
- Toujours inclure votre sitemap — ajoutez une directive Sitemap pour aider les moteurs de recherche
- Ne bloquez pas les fichiers CSS ou JavaScript — les moteurs de recherche en ont besoin pour le rendu
- Erreurs courantes — bloquer accidentellement des repertoires entiers peut nuire a votre SEO
Questions frequemment posees
robots.txt est-il obligatoire ou seulement consultatif ?
robots.txt est entierement consultatif. Les robots bien intentionnes le respectent, mais il n'y a pas d'application technique. Pour le contenu sensible, utilisez des controles d'acces cote serveur.
Comment tester mon fichier robots.txt ?
Google Search Console fournit un testeur robots.txt. Vous pouvez aussi utiliser des validateurs en ligne qui analysent votre fichier et simulent le comportement des robots.
Google respecte-t-il Crawl-delay dans robots.txt ?
Non, Google ne prend pas en charge la directive Crawl-delay. Utilisez les parametres de vitesse d'exploration dans Google Search Console. Bing respecte Crawl-delay.