Analyse des Userverhaltens
Diplomarbeit: "Entwicklung eines Tools zur Analyse des Benutzerverhaltens am World Wide Web"
Autor:
Paul Gutenbrunner
Spaunstraße 128
A-4020 Linz
pagu@pagu.at
Betreuer:
Univ.-Prof. Mag. Dr. Manfred Pils
Vorstand des Instituts für Datenverarbeitung
Johannes Kepler Universität Linz
pils@idv.uni-linz.ac.at
www.idv.uni-linz.ac.at
Ziel
Ziel der Arbeit war es zu untersuchen, welche Informationen über das Benutzerverhalten sich aus der Untersuchung der Logfiles gewinnen lassen.
Nach der Erarbeitung der Grundlagen (TCP/IP, HTTP, Browser, WWW-Server, Common Log Format) wurde untersucht, welche Daten von verschiedenen Web-Servern protokolliert werden und welche Informationen sich daraus gewinnen lassen.
Da eine ganze Reihe von Werkzeugen zur Auswertung von Logfiles existieren, wurden zwei Produkte näher betrachtet: wwwstat und WebTrends 3.5. Diese Produkte und eine Reihe anderer Produkte, die getestet wurden, waren aber nicht geeignet, detaillierte Informationen über das Benutzerverhalten zu gewinnen. Deshalb war das Ziel dieser Arbeit auch ein Werkzeug zu entwickeln, das speziell zur Untersuchung des Verhaltens einzelner Benutzer verwendet werden konnte.
Anforderungen
Folgende Anforderungen an das Werkzeug wurden definiert:
- Jeder protokollierte Zugriff eines Users soll ersichtlich sein.
- Es muß zwischen einzelnen Sessions unterschieden werden können.
- Alle Seiten, die während einer Session besucht werden, müssen angezeigt werden.
- Die Verweildauer auf einer Seite muß ersichtlich sein.
Zusätzlich sollen statistische Auswertungen möglich sein und das Werkzeug soll Logfiles von verschiedenen Web-Servern verarbeiten können.
Implementierung
Das Werkzeug wurde mit der Programmiersprache Java unter Verwendung der Version 1.02 des Java Development Kits erstellt. Die Dokumentation des Entwicklungsprozesses erfolgte anhand der OMT-Methode von James Rumbaugh. Als Beispiel ist hier das vereinfachte Objektmodell des Werkzeuges abgebildet.

Nach der Analyse eines Logfiles zeigt das Programm folgendes Bild:
- Links sind alle User (Hosts) aufgelistet, deren Zugriff protokolliert wurde.
- Rechts befindet sich die Darstellung aller Seiten, die der gewählte User besucht hat.
- Unter der Anzeige der Seitenliste hat man die Möglichkeit, zwischen den verschiedenen Sessions des Users zu wechseln. Die Seitenliste ändert sich entsprechend.
- In der unteren Hälfte des Bildschirms werden Daten zur aktuell gewählten Seite angezeigt. Das Datum und die auf der Seite verbrachte Zeit wird immer angezeigt. Die anderen Informationen, in diesem Fall Agent, Bytes transfered und Method können vom Benutzer vor der Analyse festgelegt werden.
- Die letzte Zeile dient zur Anzeige von Statusmeldungen (Fehler etc.).

Mit dem Werkzeug wurden Logfiles des Instituts für Datenverarbeitung der Universität Linz untersucht. Die Arbeit mit dem Werkzeug brachte einige aufschlußreiche Ergebnisse:
So konnte festgestellt werden, daß nur sehr wenige Benutzer mehrmals den Server besuchten (über 90% besuchten ihn nur einmal). Auch die auf einer Seite verbrachte Zeit ist sehr gering, 60% der Seiten werden nur bis zu fünf Sekunden betrachtet. Der das Ergebnis verzerrende Einfluß von Frames wurde dabei allerdings noch nicht berücksichtigt. Als besonders Interessant erwies sich das Feld Referer. Es enthält die Seite von welcher der Besucher auf die aktuelle Seite gekommen ist. Mit der ersten Seite jeder Session läßt sich dadurch feststellen, woher der Besucher gekommen ist. Die Untersuchungen zeigten, daß die Suchmaschine Alta Vista von den Besuchern des Servers besonders häufig verwendet wird, ca. 52 % aller Session kamen von dieser Suchmaschine. Zusätzlich enthalten die Referer von Suchmaschinen noch den Suchbegriff, nachdem der Benutzer gesucht hat.
Einige der gewonnenen Erkenntnisse
Nach Abschluß der Arbeit kann gesagt werden, daß eine Untersuchung des Benutzerverhaltens ausgehend von einer Logfileanalyse wertvolle Informationen liefern kann. Folgende Einflußfaktoren verfälschen aber die Informationen in den Logfiles:
- Bei Verwendung eines Proxy-Servers wird der Besuch nicht oder nur fragmentweise protokolliert.
- In der Arbeit wurde das Feld "remote_host" als Benutzerkennung verwendet. Es kann aber nicht unbedingt von einem Host auf einen Benutzer geschlossen werden.
- Der Cache des Browsers verhindert eine lückenlose Protokollierung der Zugriffe.
- Da das HTTP verbindungslos ist, kann nicht eindeutig zwischen einzelnen Sessions unterschieden werden.
- Robots verfälschen das Untersuchungsergebnis, da sie ein im Vergleich zu anderen Besuchern völlig anderes Verhalten zeigen. Robots können aber nicht immer eindeutig identifiziert werden.
Einige dieser Einflüsse kann man allerdings ausschalten bzw. umgehen:
- Proxy-Server lassen sich über einen speziellen HTML-Befehl ausschalten, dadurch könnte man die tatsächliche Zahl der Zugriffe ermitteln.
- Mittels Cookies könnte man jeden Rechner "markieren" und so Probleme die sich aus der dynamischen Vergabe von IP-Adressen ergeben umgehen.
Nähere Informationen
Dieses Dokument enhält natürlich nur einen stark komprimierten Auszug der Diplomarbeit. Sollte nun Ihr Interesse zu näheren Informationen zu diesem Thema geweckt worden sein, lade ich Sie herzlich ein, sich mit mir in Verbindung zu setzen:
Paul Gutenbrunner
Spaunstraße 128
4020 Linz
AUSTRIA
pagu@pagu.at