
Większość zespołów SEO pracuje na dwóch zestawach danych: analityce (GA4, Matomo) i Search Console. To świetne narzędzia, ale mają wspólną wadę: pokazują efekty i wycinki, a nie pełny obraz zachowania robotów. Logi serwera działają inaczej. To surowy zapis tego, co faktycznie weszło na Twoją stronę: kto, kiedy, co pobrał, z jakim kodem odpowiedzi i jak długo czekał na odpowiedź.
Jeżeli kiedykolwiek miałeś sytuację typu „strona niby jest, ale nie rośnie”, „GSC pokazuje dziwne skoki”, „po wdrożeniu coś siadło, ale nie wiemy co”, to logi często dają najszybszą, najbardziej zero-jedynkową odpowiedź. Nie trzeba zgadywać, czy Googlebot widzi nowy URL. W logach widać, czy go odwiedził, jak często wracał, czy wpadł w pętle przekierowań, czy wali w parametry, czy dostaje 5xx, czy marnuje czas na zasoby, których i tak nie chcesz indeksować.
Najczęściej analizuje się logi dostępu (access logs) z serwera WWW, reverse proxy lub CDN. Pojedynczy wpis potrafi zawierać m.in. adres IP klienta, datę i godzinę żądania, metodę (GET/HEAD), URL, kod HTTP (np. 200/301/404/500), rozmiar odpowiedzi, referer i user-agent. W praktyce oznacza to, że możesz odtworzyć ścieżki poruszania się botów i użytkowników oraz zidentyfikować problemy techniczne, które nie zawsze widać w raportach.
Ważna uwaga: user-agent da się podszyć. Dlatego w przypadku decyzji o blokowaniu botów nie opieraj się wyłącznie na tym polu. Logi traktuj jako punkt startu, a weryfikację rób metodami zalecanymi przez Google (o tym niżej).
W zależności od architektury możesz mieć logi w kilku miejscach:
Jeżeli dostawca hostingu mówi „nie udostępniamy logów”, to w praktyce oznacza, że nie udostępnia ich w panelu, a nie że one nie istnieją. Warto poprosić konkretnie o: logi dostępu z ostatnich 7–30 dni, najlepiej z rozdzieleniem na domeny/vhosty, z zachowaniem user-agent i czasu odpowiedzi. Bez czasu odpowiedzi da się zrobić dużo, ale tracisz klucz do diagnostyki wydajnościowej.
Żeby analiza nie zamieniła się w dłubanie w milionach wierszy, ustaw priorytety. W większości serwisów najszybciej zwraca się przegląd pięciu obszarów:
W logach zobaczysz mnóstwo wpisów z user-agentem zawierającym słowo „Googlebot”. Problem w tym, że każdy crawler może to sobie wpisać. Jeżeli planujesz blokady, limity lub chcesz wyciągać wnioski o zachowaniu Google, stosuj weryfikację zalecaną przez Google: reverse DNS dla IP, sprawdzenie domeny (np. googlebot.com), a potem forward lookup, czy ta nazwa rozwiązuje się z powrotem do tego samego IP.
Praktycznie: najpierw wyłapujesz podejrzanie intensywny ruch „udający Google”, a dopiero potem weryfikujesz IP-y. Dzięki temu nie blokujesz czegoś, co tylko wygląda jak bot, a w rzeczywistości jest losowym scraperem.
W małych serwisach temat crawl budgetu bywa przeceniany. Jeżeli masz kilkaset stron i czysty serwis bez parametrów, Google zwykle ogarnie temat. Crawl budget zaczyna realnie boleć, gdy:
Logi odpowiadają na proste pytanie: czy bot wydaje swoje wejścia na to, co chcesz indeksować i pozycjonować, czy na rzeczy przypadkowe. Jeżeli widzisz, że duża część crawl to parametry, strony wyszukiwania wewnętrznego, koszyk, panel, duplikaty, stare ścieżki po migracjach – to nie jest teoria. To konkretny koszt w postaci wolniejszego odkrywania i aktualizowania właściwych treści.
W praktyce powtarza się kilka scenariuszy. Warto znać je „po objawach”, bo skracają diagnostykę:
1) Pętle i łańcuchy przekierowań. Bot trafia na stary URL, dostaje 301, potem kolejne 301, czasem wraca do punktu wyjścia. W logach zobaczysz to jako powtarzalne żądania tych samych adresów i kody 3xx. Skutek: strata crawl i często gorsze przeniesienie sygnałów.
2) Masowe 404 na adresach, które kiedyś istniały. Zwykle po zmianie struktury URL, wdrożeniu filtrów albo „porządkach” w treściach. Jeżeli 404 dotyczy stron z linkami zewnętrznymi lub istotnych ścieżek wewnętrznych, to proszenie się o spadki.
3) Parametry generujące „nieskończony katalog”. Typowe w sklepach: sortowania, filtry, kombinacje cech, UTM-y. W logach wyjdzie to jako tysiące unikalnych URL-i o podobnym wzorcu, intensywnie crawlowanych, często bez wartości.
4) Bot częściej odwiedza zasoby, które nie zmieniają się od miesięcy, niż treści świeże. To bywa efekt złej architektury linkowania wewnętrznego lub blokad/utrudnień w odkrywaniu nowych URL-i (np. nowe treści są „schowane” głęboko, bez linków, zależne od JS).
5) Skoki 5xx lub długie czasy odpowiedzi. Nawet jeśli użytkownicy „tego nie czują”, bot potrafi spowolnić crawl, bo widzi niestabilność. Logi z czasem odpowiedzi są tu bezlitosne: widać, które endpointy są najcięższe.
To częsty błąd w interpretacji danych. Crawl oznacza: bot odwiedził URL. Indeksacja oznacza: Google uznał, że warto mieć tę stronę w indeksie (i utrzymywać ją). Logi nie powiedzą Ci wprost „to jest w indeksie”, ale powiedzą Ci coś równie ważnego: czy Google w ogóle ma szansę zobaczyć stronę regularnie i czy dostaje poprawne odpowiedzi.
W praktyce świetnie działa zestawienie trzech list:
Jeżeli ważne strony są w sitemap, ale prawie nie ma ich w logach – problemem może być odkrywanie, architektura linków, blokady, wydajność albo ogromny szum w parametrach. Jeżeli są w logach, ale nie w indeksie – wtedy patrzysz na jakość, duplikację, kanonikalizację i sygnały E-E-A-T.
Da się zrobić sensowną analizę nawet bez drogich platform. Klucz to nie „perfekcyjny pipeline”, tylko dobre pytania i szybkie filtrowanie:
Najważniejsze: po tej godzinie masz mieć 3–5 konkretnych wniosków do wdrożenia, a nie „ładny raport”. Logi są narzędziem decyzyjnym, nie ozdobą.
Gdy już wiesz, gdzie bot marnuje czas albo gdzie dostaje problemy, zwykle wygrywają działania porządkujące. Najczęstsze szybkie wygrane to:
Po wdrożeniach wróć do logów po 7–14 dniach i sprawdź, czy profil crawl się zmienił. To jest jedna z najfajniejszych rzeczy w pracy z logami: widać, czy zmiana realnie wpłynęła na zachowanie botów, a nie tylko „powinna” wpłynąć.
Są sytuacje, w których logi nie są „miłym dodatkiem”, tylko elementem bezpieczeństwa projektu: