Data Sampling (Stichprobenerhebung) in Google Analytics vermeiden

Jedem, der mit Google Analytics arbeitet, ist es sicherlich schon einmal passiert, dass er bei Auswertungen in die Sampling-Falle getappt ist. Man ist auf die Daten im Bericht konzentriert und übersieht den kleinen gelben Sampling-Balken, welcher oben rechts im Bericht erscheint und darauf hinweist, dass die Berechnungen nur auf einer Teilmenge der erhobenen Daten basieren.

Besonders ärgerlich ist es, wenn man dies nicht sofort bemerkt und sich erst bei einem späteren Vergleich unterschiedlicher Berichte wundert, dass die ausgeworfenen Daten nicht übereinstimmen. Wir zeigen euch, mit welchen Mitteln ihr Sampling-Probleme umgehen könnt.

Was bedeutet Data Sampling überhaupt?

Das Sampling bei Google Analytics ist nichts anderes als eine auf Stichproben basierende Datenerhebung. In der Statistik sind solche Stichprobenerhebungen weit verbreitet, da die Analyse von Teilmengen wesentlich schneller durchgeführt werden kann als die Analyse der Gesamtmenge bei ähnlichen Ergebnissen. Die Ergebnisse der Teilmenge werden dann einfach auf die Gesamtmenge hochgerechnet. Ob die Ergebnisse zuverlässig sind, ist jedoch stark abhängig von der Auswahl der Beispiel-Daten.

vorteil-nachteil

Wann werden die Daten bei Google Analytics gesampelt?

Sobald die Auswertungsanforderungen in den Google Analytics Berichten zu komplex sind, werden die Daten gesampelt. Laut Google erfolgt die Stichprobenerhebung automatisch, sobald für einen Bericht mehr als 500.000 Sitzungen erfasst werden.

Wie erkenne ich, ob die Daten gesampelt werden?

In den Standardberichten werden immer ungefilterte Daten ausgespielt.

Bei Einsatz von

  • benutzerdefinierten Berichten
  • Filtern
  • Segmenten
  • Sekundäre Dimension
  • Nutzer- oder Verhaltensfluss
  • oder bei Betrachtung langer Zeiträume

werden die Berechnungen zu umfangreich und die Daten werden gesampelt.

Ob ein Bericht gesampelt wird, erkennt ihr ganz oben rechts in der Ecke unterhalb des Beobachtungszeitraums. Dort erscheint der gelbe Info-Balken mit der Anzahl der Sitzungen, welche für die Stichprobenerhebung herangezogen wurde sowie der prozentuale Anteil an den Gesamtsitzungen. Die Standard Stichprobe basiert auf 250.000 Sitzungen.

Der gelbe Balken zeigt an, dass die Daten des Berichts auf einer Stichprobenerhebung beruhen.

Der gelbe Balken zeigt an, dass die Daten des Berichts auf einer Stichprobenerhebung beruhen.

Wann wird der Einsatz von Stichprobenerhebungen zum Problem?

Bei der Beobachtung von Trends reicht eine Stichprobenerhebung von 80 oder 90 % der Gesamtsitzungen schon vollkommen aus.

Je niedriger die Samplingquote, also je weniger Daten der Datenberechnung zugrunde liegen, desto größer werden natürlich die Ungenauigkeiten. Bei jeder neuen Datenabfrage erhaltet ihr neue Ergebnisse. Dies erschwert einen Vergleich von Daten aus verschiedenen Berichten.

Bei einem Vergleich von Gesamtzugriffen und SEO Zugriffen kann es zum Beispiel vorkommen, dass die SEO Zugriffe einer URL höher sind als die Gesamtzugriffe, da der Bericht für die Gesamtzugriffe ungesampelte Daten enthält und der SEO Bericht auf Stichprobenerhebung basiert. Das kann euch bei einem Content Audit und anderen Auswertungen zum Verhängnis werden. Und auch bei einem Vergleich von Monatsberichten und Jahresberichten kann dies der Fall sein.

Um akkurat mit den Zahlen zu arbeiten, speziell auch für Vergleiche, sind diese Daten also unbrauchbar.

Welche Möglichkeiten gibt es, das Sampling zu umgehen?

Glücklicher Weise gibt es verschiedene Möglichkeiten, das Sampling zu unterbinden.

  1. Nutzt den Schieberegler
    Wenn die Samplingquote ziemlich hoch ist, kann es schon ausreichen mit Hilfe des Schiebereglers die Quote zu erhöhen. Klickt dazu auf das Sampling-Icon oberhalb der gelb hinterlegten Anzeige, so dass sich der Schieberegler öffnet.
Mit dem Regler kann die Samplingquote verändert werden.

Mit dem Regler kann die Samplingquote verändert werden.

Hier könnt ihr den Regler auf eine höhere Präzision einstellen. Sofort werden die Daten neu berechnet.
Bestenfalls wird damit schon das Sampling ausgeschaltet. Das erkennt ihr daran, dass der gelbe Balken nicht mehr erscheint.

  1. Nutzt Standard-Berichte
    Die Standardberichte nutzen immer die gesamte Datenmenge und sind nicht gesampelt.
    Manchmal kann man die gleichen Ergebnisse mit Standard-Berichten erzielen, um den Einsatz von Segmenten oder sekundären Dimensionen zu vermeiden.

Beispiel: Wenn ihr die Sitzungen für die Top Zielseiten über organische Suche zählen möchtet, könnt ihr den Bericht Verhalten – Websitecontent – Zielseiten auswählen und das Segment „organische Zugriffe“ darüberlegen. Schon wird gesampelt 🙁

Segmentewie "organische Zugriffe" sorgen dafür, dass Daten gesampelt werden, wenn man sich einen längeren zeitraum ansieht.

Segmente wie „organische Zugriffe“ sorgen dafür, dass Daten gesampelt werden, wenn man sich einen längeren zeitraum ansieht.

Die gleichen Daten erhaltet ihr, wenn ihr in den Report Akquisition – Alle Zugriffe – Channels geht und die Organische Suche anklickt. Anschließend wählt ihr die Primäre Dimension Zielseite aus. Und es wird nicht gesampelt 🙂

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

  1. Verkürzt den Betrachtungszeitraum
    Eine weitere Möglichkeit besteht darin, den Betrachtungszeitraum zu verkürzen. Damit verringert ihr die Zahl der Visits.
    Wenn ihr z.B. eine Jahresauswertung erstellen möchtet und ihr erhaltet Daten auf Stichprobenbasis, dann solltet ihr versuchen, die Daten stattdessen quartalsweise oder monatlich zu ziehen. So erhaltet ihr eine kleinere Datenmenge zum Verarbeiten. Im Anschluss daran könnt ihr die Zahlen z.B. in Excel wieder zusammenfügen.
  2. Nutzt mehrere gefilterte Datenansichten
    Wenn ihr öfter einen bestimmten Bereich anschauen möchtet und schon alleine durch den Einsatz eines Segments in das Sampling rutscht, dann solltet ihr euch vielleicht eine eigene Datenansicht für diesen Segmentbereich erstellen. Die Standard-Berichte dieses Bereiches werden nicht gesampelt.
  3. Unterteilt Daten in verschiedene Properties
    Der automatische Einsatz von Stichprobenerhebungen wird auf Property-Ebene vorgenommen. Wenn ihr z.B. viele unterschiedliche Länder-Websites habt, könntet ihr für jede Länder-Website eine eigene Property erstellen.
  4. Arbeitet mit Tools, welche die Google Analytics API nutzen
    Mit Hilfe der API können die Berichtsanfragen gestückelt werden, so dass der Einsatz des Samplings ausgehebelt wird. Dabei wird die Datenmenge jeder einzelnen Anfrage klein gehalten und anschließend alle einzelnen Abfragedaten wieder zusammengesetzt. Wir haben bisher zum Beispiel gute Erfahrungen mit NextAnalytics gemacht, aber auch AnalyticsEdge ist empfehlenswert.
  5. Google Analytics Premium (360° Suite)
    Wenn ihr mit solch großen Datenmengen arbeitet, dass eure Berichte sehr schnell bzw. sehr oft gesampelt werden, dann solltet ihr euch überlegen, Google Analytics Premium bzw. die Google Analytics 360 Suite einzusetzen. Der Einsatz von GA Premium bringt viele Vorteile mit sich, inclusive der Möglichkeit, ungefilterte Berichte zu erstellen. Allerdings ist das Webanalyse Tool in dieser Version nicht kostenlos.

Fazit

Die Sampling Funktion in Google Analytics erstellt Berichte auf Grundlage von Teilmengen der erhobenen Daten und tritt in Kraft, sobald der Aufwand für die Berechnung der ausgewählten Gesamtdatenmenge zu aufwändig wird. Berichte, die mit gesampelten Daten erstellt werden, sind nur bedingt aussagekräftig und lassen sich nicht zum Vergleich mit anderen Berichten heranziehen. Es gibt allerdings verschiedene Möglichkeiten, die Sampling-Probleme zu umgehen und auch für große Datenmengen verlässliche Berichte zu erhalten.

Verwandte Artikel

0 Antworten

Hinterlassen Sie einen Kommentar

Wollen Sie an der Diskussion teilnehmen?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.