Oko Wielkiego Brata

Każdy właściciel internetowej witryny chciałby wiedzieć, kto siedzi po drugiej stronie przeglądarki, i czy to, co zostało z takim trudem przygotowane, podoba się odbiorcy i zaspakaja jego potrzeby. Internet umożliwia śledzenie zachowań użytkowników Sieci, ale trzeba pamiętać, że uzyskane informacje obarczone są błędem, nieraz bardzo dużym.

Najbardziej podstawowym rodzajem danych, z jakim mamy do czynienia zabierając się do analizy oglądalności, są logi (swoisty dziennik pracy) gromadzone przez serwer, na którym znajduje się nasza strona. Program serwera jest domyślnie tak skonfigurowany, aby rejestrował każdy dostęp wpisując za każdym razem linię w pliku systemowym. Dziennik serwera rejestruje sekunda po sekundzie każdą reakcję komputera, z którego wysłano żądanie danej strony.

Dostępne dane

Przykład jednej linii z pliku logów:

Ip248.providence.ri.pub-psi.net – – [29/Jan/2002:12:35:54 – 500]„GET /images/museum.gif HTTP/1.0” 200„http://www.yahoo.com

„Mozilla/6.0 : Windows 98”

Pierwsze pole określa maszynę naszego użytkownika – mamy do czynienia z kimś podłączonym do Internetu przez PSI w Providence, Rhode Island. Dalej dokładna data i czas połączenia, potem żądanie, które napłynęło od strony przeglądarki (pobierz dla mnie GIF nazwany museum i prześlij go do mnie używając protokołu HTTP/1.0). Kod 200 oznacza, że użytkownikowi udało się ściągnąć z wybranej strony dany rodzaj pliku i zobaczyć go bez żadnych problemów na swojej przeglądarce. Wiadomo też, że użytkownik przebywał wcześniej na stronie głównej yahoo.com i używa przeglądarki Natscape w wersji 6.0 i systemu Windows 98.

Korzystając jednak jedynie z informacji zebranych w logach zwykle nie dowiemy się wystarczająco dużo o zwyczajach i zainteresowaniach internautów. Jedną z metod pozwalających na zebranie bardziej precyzyjnych danych o ich preferencjach jest przeprogramowanie naszego serwera tak, aby dla każdego użytkownika naszej witryny tworzył tzw. cookie, potocznie zwane ciachem. To niewielki plik tekstowy przechowywany jest w pamięci przeglądarki. Za każdym razem, gdy użytkownik zażąda strony, serwer sprawdzi czy przeglądarka użytkownika wysłała nagłówek w cookie. Jeśli nie, program serwera wygeneruje unikatowy identyfikator i prześle żądaną stronę z nagłówkiem – ustanów cookie.

Cookie mogą być nadawane tylko na sesję i potem kasowane lub ustanawiane na dłuższy okres. Na podstawie cookies możemy dowiedzieć się znacznie dokładniej – niż na podstawie analizy samych logów – nie tylko, ilu użytkowników odwiedza naszą witrynę, ale też poznać ich upodobania i preferencje, np. w jakim kolorze tła strony gustują. Dzięki temu użytkownik nie musi za każdym razem przypominać nam, co lubi, a czego nie, co ostatnio kupił i co chce zakupić ponownie.

Wiele informacji o użytkownikach można uzyskać z rejestracji. Internauci, którzy zdecydują się na zarejestrowanie na witrynie, muszą podać swoje dane, np. płeć, wiek, wykształcenie, zainteresowania, a nawet czasem dokładne dane osobowe, adres i numer telefonu. Na wielu stronach spotkać można także niewielkie ankiety zamieszczane tam zupełnie ad hoc. Informacje zbierane w ten sposób mogą okazać się cennym źródłem wiedzy o upodobaniach i poglądach użytkowników.

Na rynku jest wiele różnych typów oprogramowania służącego do analizowania zawartości logów. Od bardzo prostych liczników odwiedzin do bardzo zaawansowanych narzędzi pozwalających na grupowanie użytkowników w określone segmenty i przewidywanie ich zachowań. Ale przed dokonaniem wyboru trzeba zastanowić się nad rzeczą najważniejszą: do czego chcemy wykorzystywać takie oprogramowanie i co chcemy analizować. No i rzecz niebagatelna – ile mamy na to pieniędzy.

Wybór programów

Ważną rzeczą jest również wielkość ruchu na naszej witrynie. Jeśli prowadzimy nieduży serwis, którego celem nie jest działalność gospodarcza, a jedynie prezentowanie i upowszechnianie określonej zawartości, to do mierzenia oglądalności zupełnie wystarczy nam oprogramowanie sharewerowe, które jest ogólnodostępne i bezpłatne. Są to m.in. Analog (www.analog.cx), Webreporter (www.webreporter.com), a w pewnym zakresie również MyStat (www.mystat.pl).

Ich zasada działania jest prosta – wystarczy zainstalować dany program, aby mieć dostęp do wielu bardzo przydatnych statystyk dotyczących odwiedzin naszej strony. Mimo, że są to programy ogólnodostępne, to cały czas powstają ich nowe wersje, wyposażone w coraz bardziej efektywne narzędzia (wykresy, tabele, dodatkowe wskaźniki). Np. nowa wersja programu Analog wyposażona w bardzo pomocny do analiz interfejs graficzny.

Nieco inne rozwiązanie proponują twórcy polskiego programy MyStat. W swej najprostszej postaci program jest bezpłatny, ale jeśli chcemy mieć dostęp do bardziej zaawansowanych statystyk trzeba wykupić licencję. Po zarejestrowaniu naszego serwisu na stronie www.mystat.pl i umieszczeniu specjalnego kodu w tych miejscach swojej witryny, które chcemy mierzyć, mamy dostęp do wielu analiz, wykresów i tabel.

Żeby uzyskać szerszy zakres informacji trzeba skorzystać oprogramowania komercyjnego. Mogą to być np. Webtrends czy też NetTracker. Specjalne wersje tych programów przeznaczone dla dużych witryn i portali oferują klientom możliwość ładowania logów do bazy, co pozwala na tworzenie zapytań o konkretny rodzaj informacji, np. o dokładną analizę zachowań tylko wybranej grupy użytkowników. Taka baza pozwala także na integrację danych pochodzących z logów i danymi pochodzącymi z bazy zarejestrowanych użytkowników. Możemy wówczas analizować nie tylko zachowanie wybranych grup użytkowników, ale także ich profil społeczno-demograficzny .

Możliwości tych programów są już bardzo duże. Firma Sane Solution, producent programu NetTracker, zapewnia na swoich stronach (www.sane.com), że program ten umożliwia dokładną analizę poruszania się użytkownika na stronach (visitor clickstream analysis), analizę zachowań nowych i powracających użytkowników (new and repeat visitor behavior), preferencję i upodobania użytkowników względem zawartości poszczególnych stron (product and content preferences), segmentację odwiedzających (visitor segementation analysis) i wiele innych analiz

Zupełnie inną filozofię proponuje Global eMarketing – polska firma oferująca oprogramowanie Gemius (www.gemius.pl), dostępne w usłudze ASP (Aplication Service Providers). Program analizuje wszystkie aspekty ruchu na witrynach internetowych. Pozwala na analizę użytkowników na zasadzie jeden-do-jednego (one-to-one). Znaczy to, że każdy użytkownik oddzielnie dostarcza danych, na podstawie których dokonywana jest analiza ruchu internetowego zarówno w obrębie całego portalu jak i jego poszczególnych działów. Metodologia badania Gemius wykorzystuje specjalne skrypty wklejane w kod HTML badanych stron.

Program pozwala nie tylko na dokładną i wszechstronna analizę ruchu na stronach, zwyczajów i zainteresowań użytkowników, ale, co równie ważne, pozwala analizować dane w trybie online, praktycznie w czasie rzeczywistym, a nie dopiero po dopiero po upływie 24 godzin, jak w przypadku innych programów.

Co mierzyć?

Wiele programów nadaje własne nazwy i określenia wskaźnikom, które mierzy. Istnieje prawdziwe zamieszanie, co do znaczenia i poprawnego rozumienia zakresu pomiarów, które możemy wykonywać w przypadku różnego oprogramowania. Nawet, gdy dany program używa określeń, które powszechnie przyjmuje się za miary warte pomiarów, to nigdy nie jesteśmy do końca pewni, czy rzeczywiście to, co mierzy jest tym samym, co w przypadku innego programu.

Najwięcej nieporozumień dotyczy tzw. trafień (hits). Jest to najczęściej występująca miara, obejmuje ona bezpośrednio wszystkie żądania strony lub jej elementów, które rejestrowane są w logach. Trafienia jednak są zupełnie nieprzydatne do analizy popularności naszej witryny. Zazwyczaj używa się jej do analizy samego natężenia ruchu i wynikającego stąd obciążenia serwera na którym znajduje się witryna, a nie oglądalności rozumianej sensu stricto.

Do analizy popularność strony i zachowań użytkowników stosuje się takie miary, jak: unikalny użytkownik, wizyta, odsłona, czy średni czas spędzony przez jednego użytkownika na stronach serwisu. Internauta korzysta z danej witryny generując tzw. odsłony (page views). Każde wyświetlenie strony przez to pojedyncza odsłona. Zwykle internauta korzysta z kilku stron w krótkich odstępach czasu. Zbiór takich odsłon jest definiowany jako wizyta. Sumując czas pomiędzy kolejnymi odsłonami w ramach wizyty otrzymujemy czas, jaki użytkownik spędził na stronach portalu. Za miarę popularności serwisu uważa się liczbę tzw. unikalnych użytkowników (unique users lub unique visitors). Taki użytkownik identyfikowany jest za pomocą IP komputera, z którego nastąpiło połączenie lub / i przez nadane mu cookies.

Większość programów pozwala na raportowanie tych wskaźników w przedziale godzinowym, dziennym, tygodniowym czy miesięcznym. Programy analizujące statystyki podają również informację, skąd najczęściej użytkownicy wchodzą na nasze strony: czy znajdują adres w wyszukiwarkach, czy łączą się przez inne strony, na których znajdują się odnośniki do naszego serwisu, w którym miejscu zaczynają nawigację, a w którym kończą pobyt na witrynie. Wiele z informuje również, skąd pochodzą użytkownicy (z jakiego kraju, województwa, czy miasta).

Problemy z interpretacją

Dane uzyskane na podstawie pomiarów oglądalności nie niosą jednoznacznej i bezwzględnej prawdy. Trzeba pamiętać, że wszystkie programy do pomiarów oglądalności stron i serwisów internetowych mierzą zachowania komputerów, nie ludzi, a mówiąc jeszcze precyzyjniej, mierzą zachowania innych programów.

Dokonując identyfikacji jedynie na podstawie IP nigdy nie możemy być pewni, czy przy komputerze, z którego zostało wysłane żądanie pobrania danej strony, siedzi jeden użytkownik, czy też mamy do czynienia z siecią połączonych ze sobą komputerów posiadających jeden numer IP. Aby móc lepiej identyfikować użytkowników wprowadzono wspomniane już cookies. Ale nie wszystkie przeglądarki wspomagają protokół ustanawiający cookie. Niektórzy użytkownicy lub firmy ustawiają przeglądarkę tak, by odrzucała cookie. Wówczas przeglądarka nigdy nie prześle go z powrotem do programu naszego serwera.

Analizując odsłony stron musimy również pamiętać, że odsłona odsłonie nie równa. Większość programów mierzy oglądalność jedynie na podstawie odsłon zarejestrowanych przez nasz serwer. W logach naszego serwera odczytać można jedynie strony przeglądane on site (w miejscu), a nie strony przeglądane off site (poza miejscem). Strony przeglądane w miejscu są ściągane bezpośrednio z serwera głównego (witryny), bez pośredniego przechowywania w pamięci. Zlicza się je na serwerze głównym (w witrynie). Strony przeglądane poza miejscem są ściągane z bufora dyskowego (cache) albo serwerów proxy. Zostały już przejrzane przez użytkowników, nie są jednak zliczone w logach witryny.

Poza tym liczba przejrzanych stron powinna oznaczać liczbę stron całkowicie załadowanych. Obecnie stosowane techniki pomiaru nie pozwalają jednak na określenie, czy strona została otwarta w całości. Za podstawowy wskaźnik uważa się żądanie strony i rozpoczęcie procesu jej otwierania, czyli kod żądania i brak kodu błędu transmisji. Stosowane programy nie pozwalają na dokonywanie bezpośrednich pomiarów stron przeglądanych poza miejscem. Mierzą wyłącznie strony przeglądane w miejscu albo wszystkie strony otwarte, bez względu na ich pochodzenie (ten problem omija program Gemius).

W przypadku analizy liczby odsłon należy również pamiętać o wyeliminowaniu wyszukiwarek i prób ściągnięcia stron w trybie off-line. Wiele odsłon naszego serwisu może być generowanych nie przez użytkowników, ale właśnie przez tzw. boty, których celem jest automatyczna indeksacja stron lub przez oprogramowanie, którego celem jest archiwizacja zawartości naszej witryny.

Problemem w rzetelnej ocenie oglądalności danej strony lub grupy stron (tzw. content groups) może być również to, że w logach ta sama strona może być reprezentowana przez bezpośrednie występowanie różnej nazwy. Wykazywany przez oprogramowanie poziom liczby odsłon zależy zatem w dużej mierze od konstrukcji samej strony, od jej struktury, wzajemnego powiązania stron, czy też od stosowanego oprogramowania, które na pewno ułatwia poruszanie się po serwisie, ale też niejednokrotnie utrudnia dokładną ocenę popularności jego poszczególnych działów.

Niejednokrotnie duża liczba odsłon mówi nie tyle o popularności danego serwisu, ile jest wynikiem jego konstrukcji (przekierowywania stron, dzielenia artykułów wymuszające klikanie, pisanie postów itd.). Serwis może również stosować oprogramowanie, które powoduje, że jedno zapytanie może być rejestrowane przez program analizujący statystyki jako kilka odsłon. Na przykład czat zbudowany na bazie pliku html powoduje, że cała strona odświeża się co kilkanaście sekund, powodując naliczanie kolejnej odsłony, nawet jeśli w danej chwili nikt nie siedzi przed ekranem. Ten sam czat napisany w Javie w postaci skryptu, ładuje jedynie kolejne wypowiedzi uczestników, zatem odsłona jest naliczana tylko raz, w momencie pojawienia się użytkownika na stronie czatu.

Po co nam to wszystko?

Mimo tych wszystkich ograniczeń na pewno warto śledzić ruch na swoich stronach. Dzięki temu możemy lepiej poznać swoich użytkowników, ich zwyczaje i zainteresowania, a przez to oferować im zawartość, która będzie spełniać ich oczekiwania. Umiejętna interpretacja danych – właśnie interpretacja, a nie traktowanie ich jako jedynej wykładni rzeczywistości – może pozwolić na poprawę nawigacji, budowę lojalności odwiedzających, adresowanie kampanii reklamowych do właściwych grup użytkowników, czy w konsekwencji na zbudowanie prawdziwej społeczności wokół naszego serwisu.

Artykuł opublikowany w magazynie WWW (początek XXI wieku)

4 thoughts on “Oko Wielkiego Brata

  1. proxy sites pisze:

    I every time used to study article in news papers but now
    as I am a user of internet so from now I am using net for content, thanks to web.

  2. Theresa pisze:

    Hey there! Quick question that’s completely off topic. Do you know how to make your site mobile friendly? My blog looks weird when browsing from my iphone. I’m trying to find a theme or plugin
    that might be able to fix this problem. If you have any suggestions,
    please share. With thanks!

  3. Normally I do not read post on blogs, however
    I would like to say that this write-up very pressured me to take a look at and
    do so! Your writing taste has been surprised me.
    Thanks, quite nice article.

  4. may lanh pisze:

    Even if various air conditioners are expensive, there fore
    you ought to come to a decision to which one to buy.

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s

%d bloggers like this: