Robots TXT co to i do czego służy?

Plik **robots.txt** to prosty plik tekstowy umieszczany w głównym katalogu strony internetowej, który służy do komunikacji z robotami indeksującymi (np. wyszukiwarkami takimi jak Google, Bing). Jego głównym zadaniem jest wskazanie, które części witryny mogą być przeszukiwane i indeksowane przez boty, a które powinny być pomijane.

### Do czego służy **robots.txt**?
1. **Kontrola dostępu botów** – określa, które roboty mogą przeglądać stronę (np. tylko Googlebot) i które ścieżki są dla nich zabronione.
2. **Ograniczenie indeksowania** – pozwala ukryć nieistotne lub poufne strony (np. panele admina, pliki tymczasowe).
3. **Optymalizacja ruchu** – zmniejsza obciążenie serwera, blokując boty od zbędnego skanowania.
4. **Unikanie duplikatów** – pomaga uniknąć problemów z indeksowaniem tych samych treści pod różnymi adresami URL.

### Przykładowa zawartość pliku **robots.txt**:
„`plaintext
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /public/

Sitemap: https://www.example.com/sitemap.xml
„`
– `User-agent: *` – dotyczy wszystkich botów.
– `Disallow: /admin/` – blokuje dostęp do folderu `/admin/`.
– `Allow: /public/` – zezwala na indeksowanie `/public/`.
– `Sitemap` – wskazuje lokalizację mapy strony.

### Ważne uwagi:
– **Nie zabezpiecza danych** – `robots.txt` tylko sugeruje, co boty powinny ignorować, ale nie blokuje dostępu (np. przez bezpośrednie URL-e).
– **Nie gwarantuje wykluczenia z wyszukiwarek** – aby całkowicie usunąć stronę z indeksu, lepiej użyć np. meta tagu `noindex` lub narzędzi dla webmasterów (Google Search Console).
– **Błędy składni mogą zaszkodzić SEO** – nieprawidłowe reguły mogą przypadkowo zablokować indeksowanie ważnych treści.

Jeśli chcesz sprawdzić, czy Twój plik `robots.txt` działa poprawnie, możesz użyć narzędzia **Google Search Console** (w sekcji „Narzędzia do sprawdzania robots.txt”).

 

Robots.txt: https://kingdomoflight.space/robots.txt