W tym artykule
Czym jest robots.txt?
robots.txt to plik tekstowy umieszczony w katalogu glownym strony internetowej, ktory informuje roboty sieciowe, ktore strony moga lub nie moga odwiedzac. Stosuje Protokol Wykluczania Robotow, standard od 1994 roku.
Gdy robot odwiedza witryne, najpierw sprawdza plik robots.txt. Plik zawiera dyrektywy okreslajace, ktore agenty moga uzyskac dostep do jakich sciezek. robots.txt jest doradczy — dobre roboty go respektuja, ale zlosliwe boty moga go ignorowac.
Skladnia robots.txt
Plik uzywa prostej skladni opartej na dyrektywach:
- User-agent — okresla, ktorego robota dotycza reguly
- Disallow — blokuje dostep do okreslonej sciezki
- Allow — jawnie zezwala na dostep do sciezki
- Sitemap — okresla URL mapy witryny XML
- Crawl-delay — sugeruje opoznienie miedzy kolejnymi zadaniami
Obslugiwane sa znaki wieloznaczne: * odpowiada dowolnej sekwencji, a $ koncowi URL.
Popularne wzorce robots.txt
Najuzyteczniejsze konfiguracje robots.txt:
- Zezwol na wszystko — pusta dyrektywa Disallow pozwala na pelne indeksowanie
- Zablokuj wszystko — Disallow: / blokuje wszystkie roboty
- Zablokuj roboty AI — celuj w konkretne boty AI z User-agent: GPTBot
- Zezwol tylko na Google — polacz bloki dla Googlebot i innych agentow
- Chron sciezki admin — Disallow: /admin/, /api/
Wypróbuj za darmo — bez rejestracji
Wygeneruj robots.txt →Typowe zastosowania
Dobrze skonfigurowany robots.txt spelnia kilka waznych funkcji:
- Optymalizacja SEO — zapobieganie indeksowaniu zduplikowanej tresci
- Blokowanie scraperów — zniechęcanie botów do zbierania treści i szkolenia AI
- Ochrona srodowisk staging — blokowanie robotow na serwerach testowych
- Zarzadzanie budzetem indeksowania — blokowanie stron o niskiej wartosci
robots.txt a SEO
robots.txt bezposrednio wplywa na sposob odkrywania tresci przez wyszukiwarki:
- Blokowanie nie oznacza deindeksacji — uzyj meta tagu noindex
- Zawsze dolaczaj mape witryny — dodaj dyrektywe Sitemap
- Nie blokuj plikow CSS ani JavaScript — wyszukiwarki potrzebuja ich do renderowania
- Typowe bledy — przypadkowe zablokowanie calych katalogow moze zaszkodzic SEO
Czesto zadawane pytania
Czy robots.txt jest obowiazkowy czy doradczy?
robots.txt jest calkowicie doradczy. Dla poufnych tresci uzyj kontroli dostepu po stronie serwera.
Jak przetestowac plik robots.txt?
Google Search Console oferuje tester robots.txt. Mozna tez uzywac walidatorow online.
Czy Google respektuje Crawl-delay w robots.txt?
Nie, Google nie obsluguje Crawl-delay. Uzyj ustawien predkosci indeksowania w Google Search Console. Bing respektuje Crawl-delay.