Skip to main content
CheckTown
Generatori

Generatore robots.txt: Controllare il crawling dei motori di ricerca

Pubblicato 6 min di lettura
In questo articolo

Cos'e robots.txt?

robots.txt e un file di testo posizionato nella root di un sito web che indica ai crawler quali pagine possono o non possono accedere. Segue il Protocollo di Esclusione dei Robot, uno standard dal 1994.

Quando un crawler visita il sito, verifica prima il file robots.txt. Il file contiene direttive che specificano quali user agent possono accedere a quali percorsi. robots.txt e consultivo — i crawler corretti lo rispettano, ma i bot malevoli possono ignorarlo.

Sintassi di robots.txt

Il file utilizza una sintassi semplice basata su direttive:

  • User-agent — specifica quale crawler e interessato dalle regole
  • Disallow — blocca l'accesso a un percorso specifico
  • Allow — consente esplicitamente l'accesso a un percorso
  • Sitemap — specifica l'URL della sitemap XML
  • Crawl-delay — suggerisce un ritardo tra richieste successive

I caratteri jolly sono supportati: * corrisponde a qualsiasi sequenza e $ alla fine di un URL.

Pattern robots.txt comuni

Le configurazioni robots.txt piu utili:

  • Consenti tutto — una direttiva Disallow vuota consente il crawling completo
  • Blocca tutto — Disallow: / blocca tutti i crawler
  • Blocca crawler IA — targetizza bot IA specifici con User-agent: GPTBot
  • Consenti solo Google — combina blocchi per Googlebot e altri agenti
  • Proteggi percorsi admin — Disallow: /admin/, /api/

Prova gratuitamente — nessuna registrazione richiesta

Genera robots.txt →

Casi d'uso comuni

Un robots.txt ben configurato serve diversi scopi:

  • Ottimizzazione SEO — prevenire il crawling di contenuti duplicati
  • Blocco degli scraper — scoraggiare bot di scraping e addestramento IA
  • Protezione ambienti di staging — bloccare tutti i crawler sui server di staging
  • Gestione del budget di crawl — bloccare pagine a basso valore

robots.txt e SEO

robots.txt impatta direttamente su come i motori di ricerca scoprono il contenuto:

  • Bloccare non significa de-indicizzare — usa il meta tag noindex
  • Includi sempre la sitemap — aggiungi una direttiva Sitemap
  • Non bloccare file CSS o JavaScript — i motori ne hanno bisogno per il rendering
  • Errori comuni — bloccare accidentalmente intere directory puo danneggiare il SEO

Domande frequenti

robots.txt e obbligatorio o solo consultivo?

robots.txt e completamente consultivo. Per contenuti sensibili, usa controlli di accesso lato server.

Come testo il mio file robots.txt?

Google Search Console fornisce un tester robots.txt. Puoi anche usare validatori online.

Google rispetta Crawl-delay in robots.txt?

No, Google non supporta Crawl-delay. Usa le impostazioni della velocita di crawl in Google Search Console. Bing rispetta Crawl-delay.

Strumenti correlati