robots.txt fragment pliku

Stare dyrektywy crawl-delay do lamusa robots.txt

Plik robots.txt jest ważnym narzędziem w zarządzaniu widocznością stron internetowych w wyszukiwarkach. Pozwala webmasterom kontrolować, które części witryny są indeksowane przez roboty wyszukiwarek, a które powinny pozostać ukryte. Ostatnio Google wprowadziło nowe zasady dotyczące tego pliku. Sprawdź i zaktualizuj swój plik.

Zmiany te mają na celu zwiększenie elastyczności i precyzji w zarządzaniu treściami oraz poprawę efektywności indeksowania. W tym artykule przyjrzymy się nowym zasadom, ich znaczeniu oraz sposobom ich wdrożenia, aby maksymalnie wykorzystać potencjał swojej witryny.

Zmiany w robots.txt

Google ostatnio wprowadziło nowe zasady dla pliku robots.txt. Wyłączyło bowiem dyrektywę crawl-delay. Mam wrażenie, że już od dłuższego czasu, ten zapis nie miał większego znaczenia, naszedł czas na zerknięcie do pliku robots.txt.

Co zostaje:

  • User-agent
  • allow
  • disallow
  • sitemap

Co zostaje zlikwidowane:

Wszystkie niestandardowe lub przestarzałe reguły crawl-delay – zostaną zignorowane.

Rekomendacje:

  1. Przegląd i aktualizacja istniejącego pliku robots.txt.
  2. Usunięcie nieobsługiwanych dyrektyw.
  3. Dodanie lokalizacji mapy witryny.
  4. Testowanie pliku w Google Search Console.
  5. Regularna aktualizacja pliku.

Jak należy przygotować plik robots.txt

Aby odpowiednio zmodyfikować plik robots.txt zgodnie z nowymi wytycznymi Google, właściciele witryn powinni przede wszystkim stosować tylko te dyrektywy, które są akceptowane przez roboty wyszukiwarki.

Google ogranicza się teraz do czterech reguł: User-agent, Allow, Disallow i Sitemap.

Krok 1: Analiza obecnego pliku: Przed wprowadzeniem zmian, należy dokładnie przejrzeć aktualną wersję pliku robots.txt. Warto zidentyfikować wszelkie przestarzałe dyrektywy, które mogą zostać zignorowane przez Google i usunąć je.

Krok 2: Poprawna konstrukcja: Upewnij się, że reguły User-agent, Allow i Disallow są właściwie sformułowane. Na przykład, aby zablokować dostęp do określonej sekcji, należy użyć:

User-agent: *
Disallow: /sekcja/

Krok 3: Dodanie informacji o mapie witryny: Wskazane jest uwzględnienie dyrektywy Sitemap,aby ułatwić robotom zrozumienie struktury witryny. Można to zrealizować w sposób:

Sitemap: https://www.example.com/sitemap.xml

Przy okazji, upewnij się czy masz wygenerowany aktualny plik sitemap.xml

Krok 4: Testowanie pliku: Po wprowadzeniu zmian, warto skorzystać z narzędzi Google Search Console, aby przetestować plik robots.txt. Dzięki temu można upewnić się, że roboty indeksujące poprawnie interpretują nowe reguły i nasza praca została wykonana prawidłowo.

Przykładowy plik robots.txt, w którym wyłączone z indeksowania tylko przez Google Bota został katalog-xyz, oraz została przekazana mapa witryny.

User-agent: Googlebot
Disallow: /katalog-xyz/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
Rate this post

Autor

Dominik Piestrzyński

Specjalizuje się w działaniach SEO oraz wsparciu IT. Automatyzuje procesy i wykorzystuje technologie do poprawy wyników biznesowych w organizacjach. Od lat pracuje aktywnie w sektorze IT i przygotowuje strategie pomagające zwiększyć ruch organiczny na stronach. Rozwijam również środowiska automatyzacji o LLMy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *


The reCAPTCHA verification period has expired. Please reload the page.