Plik robots.txt jest ważnym narzędziem w zarządzaniu widocznością stron internetowych w wyszukiwarkach. Pozwala webmasterom kontrolować, które części witryny są indeksowane przez roboty wyszukiwarek, a które powinny pozostać ukryte. Ostatnio Google wprowadziło nowe zasady dotyczące tego pliku. Sprawdź i zaktualizuj swój plik.
Zmiany te mają na celu zwiększenie elastyczności i precyzji w zarządzaniu treściami oraz poprawę efektywności indeksowania. W tym artykule przyjrzymy się nowym zasadom, ich znaczeniu oraz sposobom ich wdrożenia, aby maksymalnie wykorzystać potencjał swojej witryny.
Zmiany w robots.txt
Google ostatnio wprowadziło nowe zasady dla pliku robots.txt. Wyłączyło bowiem dyrektywę crawl-delay. Mam wrażenie, że już od dłuższego czasu, ten zapis nie miał większego znaczenia, naszedł czas na zerknięcie do pliku robots.txt.
Google clarifies the supported fields for robots.txt. There are four valid fields. All others are ignored.
From Google: „We sometimes get questions about fields that aren’t explicitly listed as supported, and we want to make it clear that they aren’t.” https://t.co/G3L21MgWNF pic.twitter.com/vMi6sfSZXO
— Glenn Gabe (@glenngabe) October 7, 2024
Co zostaje:
- User-agent
- allow
- disallow
- sitemap
Co zostaje zlikwidowane:
Wszystkie niestandardowe lub przestarzałe reguły crawl-delay – zostaną zignorowane.
Rekomendacje:
- Przegląd i aktualizacja istniejącego pliku robots.txt.
- Usunięcie nieobsługiwanych dyrektyw.
- Dodanie lokalizacji mapy witryny.
- Testowanie pliku w Google Search Console.
- Regularna aktualizacja pliku.
Jak należy przygotować plik robots.txt
Aby odpowiednio zmodyfikować plik robots.txt zgodnie z nowymi wytycznymi Google, właściciele witryn powinni przede wszystkim stosować tylko te dyrektywy, które są akceptowane przez roboty wyszukiwarki.
Google ogranicza się teraz do czterech reguł: User-agent, Allow, Disallow i Sitemap.
Krok 1: Analiza obecnego pliku: Przed wprowadzeniem zmian, należy dokładnie przejrzeć aktualną wersję pliku robots.txt. Warto zidentyfikować wszelkie przestarzałe dyrektywy, które mogą zostać zignorowane przez Google i usunąć je.
Krok 2: Poprawna konstrukcja: Upewnij się, że reguły User-agent, Allow i Disallow są właściwie sformułowane. Na przykład, aby zablokować dostęp do określonej sekcji, należy użyć:
User-agent: * Disallow: /sekcja/
Krok 3: Dodanie informacji o mapie witryny: Wskazane jest uwzględnienie dyrektywy Sitemap,aby ułatwić robotom zrozumienie struktury witryny. Można to zrealizować w sposób:
Sitemap: https://www.example.com/sitemap.xml
Przy okazji, upewnij się czy masz wygenerowany aktualny plik sitemap.xml
Krok 4: Testowanie pliku: Po wprowadzeniu zmian, warto skorzystać z narzędzi Google Search Console, aby przetestować plik robots.txt. Dzięki temu można upewnić się, że roboty indeksujące poprawnie interpretują nowe reguły i nasza praca została wykonana prawidłowo.
Przykładowy plik robots.txt, w którym wyłączone z indeksowania tylko przez Google Bota został katalog-xyz, oraz została przekazana mapa witryny.
User-agent: Googlebot Disallow: /katalog-xyz/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml