Data Sampling (Stichprobenerhebung) in Google Analytics vermeiden

Jedem, der mit Google Analytics arbeitet, ist es sicherlich schon einmal passiert, dass er bei Auswertungen in die Sampling-Falle getappt ist. Man ist auf die Daten im Bericht konzentriert und übersieht das kleine gelbe Sampling-Icon, welches oben links im Bericht erscheint und darauf hinweist, dass die Berechnungen nur auf einer Teilmenge der erhobenen Daten basieren.

Besonders ärgerlich ist es, wenn man dies nicht sofort bemerkt und sich erst bei einem späteren Vergleich unterschiedlicher Berichte wundert, dass die ausgeworfenen Daten nicht übereinstimmen. Wir zeigen euch, mit welchen Mitteln ihr Sampling-Probleme umgehen könnt.

Was bedeutet Data Sampling überhaupt?

Das Sampling bei Google Analytics ist nichts anderes als eine auf Stichproben basierende Datenerhebung. In der Statistik sind solche Stichprobenerhebungen weit verbreitet, da die Analyse von Teilmengen wesentlich schneller durchgeführt werden kann als die Analyse der Gesamtmenge bei ähnlichen Ergebnissen. Die Ergebnisse der Teilmenge werden dann einfach auf die Gesamtmenge hochgerechnet. Ob die Ergebnisse zuverlässig sind, ist jedoch stark abhängig von der Auswahl der Beispiel-Daten.

vorteil-nachteil

Wann werden die Daten bei Google Analytics gesampelt?

Sobald die Auswertungsanforderungen in den Google Analytics Berichten zu komplex sind, werden die Daten gesampelt. Laut Google erfolgt die Stichprobenerhebung automatisch, sobald für einen Bericht mehr als 500.000 Sitzungen erfasst werden.

Wie erkenne ich, ob die Daten gesampelt werden?

In den Standardberichten werden immer ungefilterte Daten ausgespielt.

Bei Einsatz von

  • benutzerdefinierten Berichten
  • Filtern
  • Segmenten
  • Sekundäre Dimension
  • Nutzer- oder Verhaltensfluss
  • oder bei Betrachtung langer Zeiträume

werden die Berechnungen unter Umständen zu umfangreich und die Daten werden gesampelt.

Ob ein Bericht gesampelt wird, erkennt ihr oben links in der Ecke rechts neben dem Berichtsnamen. Dort erscheint ein kleines gelbes Icon, sobald gesamplete Daten verwendet werden. Beruht die Berechnung auf den vollständigen Daten, ist dieses Icon grün. Wenn ihr mit der Maus über das Zeichen fahrt, öffnet sich ein kleines Fenster, in dem angegeben wird, auf viel Prozent der Gesamtsitzungen die Berechnung beruht.

Das gelbe Zeichen neben dem Berichtsnamen zeigt an, dass der Bericht auf einer Stichprobenerhebung beruht

Das gelbe Zeichen neben dem Berichtsnamen zeigt an, dass der Bericht auf einer Stichprobenerhebung beruht

Wann wird der Einsatz von Stichprobenerhebungen zum Problem?

Bei der Beobachtung von Trends reicht eine Stichprobenerhebung von 80 oder 90 % der Gesamtsitzungen schon vollkommen aus.

Je niedriger die Samplingquote, also je weniger Daten der Datenberechnung zugrunde liegen, desto größer werden natürlich die Ungenauigkeiten. Bei jeder neuen Datenabfrage erhaltet ihr neue Ergebnisse. Dies erschwert einen Vergleich von Daten aus verschiedenen Berichten.

Bei einem Vergleich von Gesamtzugriffen und SEO Zugriffen kann es zum Beispiel vorkommen, dass die SEO Zugriffe einer URL höher sind als die Gesamtzugriffe, da der Bericht für die Gesamtzugriffe ungesampelte Daten enthält und der SEO Bericht auf Stichprobenerhebung basiert. Das kann euch bei einem Content Audit und anderen Auswertungen zum Verhängnis werden. Und auch bei einem Vergleich von Monatsberichten und Jahresberichten kann dies der Fall sein.

Um akkurat mit den Zahlen zu arbeiten, speziell auch für Vergleiche, sind diese Daten also unbrauchbar.

Welche Möglichkeiten gibt es, das Sampling zu umgehen?

Glücklicher Weise gibt es verschiedene Möglichkeiten, das Sampling zu unterbinden.

1. Höhere Genauigkeit einstellen

Wenn die Samplingquote ziemlich hoch ist, kann es ausreichen, die Samplingquote zu erhöhen. Fahrt dazu mit der Maus über das gelbe Sampling-Icon. In dem Fenster, das sich dann öffnet, habt ihr die Möglichkeit, eine höhere Genauigkeit einzustellen.

Ihr könnt eine höhere Genauigkeit einstellen um das Sampling zu umgehen

Ihr könnt eine höhere Genauigkeit einstellen um das Sampling zu umgehen

Die höhere Genauigkeit geht zu lasten der Antwortzeit, die sich dann verlängert.

Bestenfalls wird damit schon das Sampling ausgeschaltet. Das erkennt ihr daran, dass das Icon grün wird.

2. Nutzt Standard-Berichte

Die Standardberichte nutzen immer die gesamte Datenmenge und sind nicht gesampelt.

Manchmal könnt ihr die gleichen Ergebnisse mit Standard-Berichten erzielen, um den Einsatz von Segmenten oder sekundären Dimensionen zu vermeiden.

Beispiel: Wenn ihr die Sitzungen für die Top Zielseiten über organische Suche zählen möchtet, könnt ihr den Bericht Verhalten – Websitecontent – Zielseiten auswählen und das Segment „organische Zugriffe“ darüberlegen. Schon wird gesampelt 🙁

Segmente wie "Organische Zugriffe" sorgen dafür, dass die Daten eher gesampelt werden.

Segmente wie „Organische Zugriffe“ sorgen dafür, dass die Daten eher gesampelt werden, wenn ihr einen längeren Zeitraum betrachtet.

Die gleichen Daten erhaltet ihr, wenn ihr in den Report Akquisition – Alle Zugriffe – Channels geht und die Organische Suche anklickt. Anschließend wählt ihr die Primäre Dimension Zielseite aus. Und es wird nicht gesampelt 🙂

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

Dieselben Auswertungen erhält man ungesampelt, indem man die entsprechenden Standard-Berichte nutzt.

3. Verkürzt den Betrachtungszeitraum

Eine weitere Möglichkeit besteht darin, den Betrachtungszeitraum zu verkürzen. Damit verringert ihr die Zahl der Visits. Wenn ihr z.B. eine Jahresauswertung erstellen möchtet und ihr erhaltet Daten auf Stichprobenbasis, dann solltet ihr versuchen, die Daten stattdessen quartalsweise oder monatlich zu ziehen. So erhaltet ihr eine kleinere Datenmenge zum Verarbeiten. Im Anschluss daran könnt ihr die Zahlen z.B. in Excel wieder zusammenfügen.

4. Nutzt mehrere gefilterte Datenansichten

Wenn ihr öfter einen bestimmten Bereich anschauen möchtet und schon alleine durch den Einsatz eines Segments in das Sampling rutscht, dann solltet ihr euch vielleicht eine eigene Datenansicht für diesen Segmentbereich erstellen. Die Standard-Berichte dieses Bereiches werden nicht gesampelt.

5. Unterteilt Daten in verschiedene Properties

Der automatische Einsatz von Stichprobenerhebungen wird auf Property-Ebene vorgenommen. Wenn ihr z.B. viele unterschiedliche Länder-Websites habt, könntet ihr für jede Länder-Website eine eigene Property erstellen.

6. Arbeitet mit Tools, welche die Google Analytics API nutzen

Mit Hilfe der API können die Berichtsanfragen gestückelt werden, so dass der Einsatz des Samplings ausgehebelt wird. Dabei wird die Datenmenge jeder einzelnen Anfrage klein gehalten und anschließend alle einzelnen Abfragedaten wieder zusammengesetzt. Wir haben bisher zum Beispiel gute Erfahrungen mit NextAnalytics gemacht, aber auch AnalyticsEdge ist empfehlenswert.

7. Google Analytics 360 Suite

Wenn ihr mit solch großen Datenmengen arbeitet, dass eure Berichte sehr schnell bzw. sehr oft gesampelt werden, dann solltet ihr euch überlegen, Google Analytics Premium bzw. die Google Analytics 360 Suite einzusetzen. Der Einsatz von GA Premium Version bringt viele Vorteile mit sich, inclusive der Möglichkeit, ungefilterte Berichte zu erstellen. Allerdings ist das Webanalyse Tool in dieser Version nicht kostenlos.

Fazit

Die Sampling Funktion in Google Analytics erstellt Berichte auf Grundlage von Teilmengen der erhobenen Daten und tritt in Kraft, sobald der Aufwand für die Berechnung der ausgewählten Gesamtdatenmenge zu aufwändig wird. Berichte, die mit gesampelten Daten erstellt werden, sind nur bedingt aussagekräftig und lassen sich nicht zum Vergleich mit anderen Berichten heranziehen. Es gibt allerdings verschiedene Möglichkeiten, die Sampling-Probleme zu umgehen und auch für große Datenmengen verlässliche Berichte zu erhalten.

Verwandte Artikel

  • Analytics Summit

    Recap zum Analytics Summit 2017

    Ein Blick auf das Leben eines Webanalysten seit Google Analytics 360 und die Hoffnungen für die Zukunft mit Google Attribution 360
    Hamburg, 09.11.2017: Bei original Norddeutschem …

  • Webanalyse für KMU
2 Kommentare
  1. Bernadette Hohns
    Bernadette Hohns sagte:

    Hallo Christian,
    mittlerweile hat sich wieder etwas getan in der Benutzeroberfläche.
    Ich werde ihn sobald möglich aktualisieren.
    Es wird jetzt ein kleines grünes Zeichen neben dem Berichtsnamen angezeigt, wenn KEIN Sampling verwendet wird. Leuchtet das Zeichen gelb, dann wird Sampling angewendet.

    Antworten
  2. christian.hansch@liebscher-bracht.com
    christian.hansch@liebscher-bracht.com sagte:

    Hallo Bernadette,

    ist der Artikel veraltet? Oder bezieht er sich auf die G360 – Suite?
    Denn bei mir sehe ich nur am gelben Häkchen, dass die Daten gesampelt sind.
    Bswp. bei einem Monat, wenn ich nach organischem Traffic segmentiere, basiert die Berechnung auf 62% der Sitzungen.

    Ab wann (bspw. so viele Sitzungen / Nutzer ) wird denn empfohlen auf die 360 umzusteigen?

    Beste Grüße
    Christian

    Antworten

Dein Kommentar

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.